垃圾邮件防护如何在Stack Exchange上起作用?

发布于:2020-12-24 16:13:01

0

67

0

垃圾邮件 Stack Exchange 安全性

如果您在互联网上放置一个文本框,则有人会将垃圾邮件放入其中。 如果将文本框放置在每天获得数百万点击的网站上,那么很多人都会在其中放置大量垃圾邮件。 如果您在该站点上放置了很多文本框,那么您便明白了。

垃圾邮件防护就像食人魔一样-它具有层次

许多大型Web应用程序是分层部署的。当您的浏览器向bigsite.example.com发送HTTP请求时,它可能首先遇到CDN(例如Cloudflare),然后转发到代理或负载均衡器,然后转发到单个服务器,这可能又具有反向代理,然后是Web服务器,然后您的请求才会真正发送到应用程序本身。我不会详细介绍Stack Exchange的部署方式,因为Nick Craver可以比我更好地解释它。

这些层中的每一层都可以调整以帮助阻止垃圾邮件。如果您使用Cloudflare,则无需考虑即可为您提供大量自动垃圾邮件防护;还有许多其他CDN也会这样做。负载均衡器可以添加一个简单的IP阻止机制。反向代理可以配置为丢弃来自可疑来源的请求,而这一切都可以在构建内置更复杂保护措施的应用程序之前完成。

Stack Exchange利用了许多这样的层来帮助缓解垃圾邮件问题。为了避免绕过他们太容易,其中一些是故意隐秘的。其他人则更多是公众知识。我在这里谈论的是比较公开的部分,通常位于请求路径的较低层。

不幸的垃圾邮件发送者收到HTTP错误

如果有一天我突然决定走上一条新的职业道路,并试图让我的财富向Stack Exchange发出垃圾邮件,那我可能会以为我只是复制发布新问题时发生的HTTP请求并编写一些代码而开始在每个帖子中对垃圾邮件进行快速重复。

我会是一个不幸的垃圾邮件发送者,因为我很快就会达到垃圾邮件保护的第一级:429。对于不熟悉HTTP状态代码的人,429是太多请求。这里的阈值是故意不公开的,但是当Stack Exchange注意到您发送了太多请求以至于无法人工处理时,它将切断您的发送并向您发送此迷人的消息:错误页面的屏幕快照,标题为“ Too many requests”,其中包含有关发出的HTTP请求以及遇到此阻止原因的信息。

现在,鉴于我已经编写了一些代码来执行此操作,可能是我永远不会看到该错误页面,并且我的脚本将继续运行……等等。在某个时候,Stack Exchange SRE可能会四处查看,并确定我是害虫,然后(示意性地)将我的IP中的任何请求路由到/ dev / null。

我可能会注意到。“但是,哈哈,”我听到你说,“你可以得到一个新的IP!”我可以的,直到我也被禁止了。“但是啊哈,您可以只使用Tor!”从表面上看,这听起来像是个好主意,直到您意识到Tor出口节点的列表是公开的,并且不会很快改变。换句话说,Stack Exchange可以告诉您何时使用Tor,如果您是害虫,可以简单地…关闭Tor访问。

幸运的垃圾邮件发送者无论如何都会遭到IP阻止

HTTP请求发送到Stack Exchange应用程序后,任何潜在的垃圾邮件发送者都会遇到另一个障碍:SpamRam。

SpamRam是Stack Exchange的定制垃圾邮件防御系统。它会监视所有收到的新帖子,可疑地斜视他们,以决定它们是否为垃圾邮件,如果是,则将其删除6条。真的很擅长:垃圾邮件被屏蔽与垃圾邮件标记的图表(2014年3月2日至4月1日),显示了3月28日受垃圾邮件的明显峰值,而标记的垃圾邮件则保持不变

诚然,这是一个古老的图表,但它表明SpamRam甚至在打到网站之前就已经摆脱了垃圾。

之所以如此出色,部分原因在于,一旦识别出垃圾邮件,它就会直接进入IP阻止机制。如果某个帖子被视为潜在的垃圾邮件而被阻止,则来自该IP地址的IP地址可能会被完全阻止,陷入混乱(即严格限制速率)或被阻止发布-这就是“由于垃圾邮件/滥用源于您的网络”消息,有关不时出现在元数据上的投诉。

那橙色线呢?这就是通过的内容,即用户实际看到的垃圾邮件。这些帖子被用户标记为垃圾邮件,它们还会反馈到SpamRam中,并再次帮助通知IP阻止。主持人采取的措施可以帮助推动系统发展-主持人当然也可以标记垃圾邮件,但他们也可以销毁用户,并特别声明他们这样做是因为用户是垃圾邮件发送者,这向SpamRam强烈表明它来自的IP地址是个坏消息。

那么人们如何找到要标记的帖子?这就是最后一点。

真正幸运的垃圾邮件发送者会被垃圾邮件标记致死

如果你是一个狡猾的,鬼鬼祟祟的,非常幸运的垃圾邮件制造者,你可能会通过一些垃圾邮件,并成功地登陆到一个网站而不被阻止。恭喜你!现在你到了最后一道防线——社区的防御机制。

我提到过垃圾邮件攻击——任何超过15的人都可以这么做。如果你在浏览网站时看到了垃圾邮件,你可以用垃圾邮件标记它。六个垃圾标志会自动删除帖子,将其标记为垃圾邮件(包括隐藏内容),并将其和作者发送到SpamRam。

这依赖于人们在随意浏览时看到垃圾邮件。在大多数情况下,这是非常有效的,特别是在高流量的网站,但特别是在较小的网站,垃圾邮件可以停留一段时间,直到它收集到足够的标志。幸运的是,社区中的一些人很久以前就认识到了这个问题,并开始了一个旨在解决这个问题的项目。输入:carbon是运行烟雾探测器的组织,从根本上说,烟雾探测器是一个寻找垃圾邮件并将其输入聊天室的机器人,等待的用户可以跟踪链接并标记垃圾邮件。

从技术上讲,它是通过监听栈交换websocket并请求用于提供实时页面的相同动作来实现这一点的。这让我们得到每一个新的和编辑过的问题或答案,在网络上无处不在。每个帖子都会被扫描,这包括对其内容进行大量的正则表达式和一些启发式测试,看看是否有结果为真。当然,绝大多数都不是垃圾邮件,但还有相当一部分是垃圾邮件——而且那些被贴上聊天标签的垃圾邮件会被标记为不光彩。

这样做意味着我们捕捉到很多不是垃圾邮件的帖子(误报)。这很好——因为在标记每一篇文章之前都有一个人在检查,我们的目标不是0%的假阳性率,而是0%的假阴性率——换句话说,我们试图不遗漏任何垃圾邮件,即使这意味着偶尔会错误地将一篇好文章识别为垃圾邮件。

但有时,人类还不够。不管垃圾邮件被标记和删除的速度有多快,总会有更多的垃圾邮件被删除。垃圾邮件通常是一波又一波的出现,在高峰时,垃圾邮件的数量可以轻易地压倒人类的恶意攻击者,需要花费一些时间来追赶并删除所有的垃圾邮件。也就是说,这里有一个主题,也有一个解决方案。

武装机器人并将其放开

当标记变得越来越困难时,就会变得困难……将控制权交给计算机,让它们来完成工作。

当Smokey判定帖子为垃圾邮件时,会将其发送到我们的Web仪表板metasmoke。 Metasmoke是最初非常简单的应用程序之一(只需记录帖子即可),但是随着时间的推移,它逐渐发展起来,现在可以处理很多东西。像这样的东西:

  • 记录帖子

  • 记录帖子获得的任何反馈-肯定,否定,不是答案等。

  • 运行审阅队列以获取对尚未有人看过的帖子的反馈

  • 记录和分类已用于垃圾邮件的网站

  • 协调多个SmokeDetector实例并管理故障转移

  • 显示所有漂亮的图

  • 托管其他功能的API(例如用户脚本)以与其集成

  • 也许最重要的是运行自动标记。

2016年11月至12月,我们在metasmoke中构建了一个系统,以识别最有可能成为垃圾邮件的帖子。我们在空运行下测试了一段时间(不投放任何标志),然后再次测试,投放标志使用一名幸运的受害者志愿者的帐户。它超出了我们的期望-准确度很高,并且几乎捕获了所有明显的垃圾邮件。 2月,我们公开发布了该系统,其中包括呼吁举报者将其标志借给我们,即使用metasmoke进行签名,以便该系统可以以其名义举报帖子。此后不久,我们将系统从在每个帖子上投射单个自动标志,移动到在每个帖子上投射三个自动标志。

实际上,木炭和SmokeDetector是Stack Exchange上抵御垃圾邮件的最后一道防线。 将所有这些系统结合在一起,Stack Exchange在保护自己免受垃圾邮件侵害方面做得非常好。

下一个是什么?

对于堆栈交换? 谁知道—垃圾邮件检测系统始终可以做出改进。 为了木炭? 我们将继续调整系统并更新我们的检测规则,始终在寻找更多要删除的垃圾邮件。

如果您想了解有关木炭的更多信息,则可以浏览网站,我们的GitHub组织或与我们聊天。 我们一直在寻找新面孔为您提供帮助-无论您只是有兴趣还是希望自己可以从事下一个重要功能,我们都希望拥有您。