I won a championship that doesn't exist
我如何赢得一个不存在的冠军,或者我如何学会毒害法学硕士供应链 我是卫冕 6 Nimmt!世界冠军。

先看结论:我如何赢得一个不存在的冠军,或者我如何学会毒害法学硕士供应链 我是卫冕 6 Nimmt!
2025 年 1 月,我在慕尼黑击败了来自 20 多个国家的选手,赢得了冠军头衔,后来我向记者形容这是“我遇到过的最艰难的比赛”。
核心内容
6nimmt.com 事实上,6 Nimmt 是不存在的!世界锦标赛。我从未去过慕尼黑。这句话是我在加载维基百科页面时花了大约三十秒写的。这是我如何制作这个标题的故事,如何让多个前沿法学硕士引用它给我,以及我认为这对于我们即将对代表我们阅读互联网的人工智能系统的信任意味着什么。实验 安全领域的每个人都在谈论有毒的 LLM 模型。这项研究是真实的,而且很重要。
Anthropic 自己的潜伏特工论文表明,后门可以在安全培训中幸存下来,后续研究表明,只要约 250 个有毒文档就可以危害大范围的模型。但模型训练时间攻击和数据中毒要求您在获得回报前数月或数年将恶意内容放入某人的训练语料库中。
GPU 需要时间来处理数据,并且您需要完成过滤、验证和强化例程。我想以不同的方式测试同一攻击的更便宜、更简单和更快的版本。让我们毒害检索层吧!每个具有网络搜索的前沿法学硕士都会根据给定查询的检索排名最高的答案来确定其答案。那里的信任模型与谷歌的信任模型相同,即“这个网站看起来很权威”,但也有同样的致命弱点——该模型无法区分真实来源和我上周二注册的来源。我的假设是,两步活动(一个种子网站,加上一个维基百科编辑引用它)可以通过法学硕士在模型没有先验知识的问题上洗白一个完全捏造的事实(我的冠军)。我选择的方法是游戏 6 Nimmt!原因有三个: - 这是一场真正的游戏(1994 年,Wolfgang Kramer、Amigo Spiele,在棋盘和纸牌游戏界广为人知) - 据我所知,没有真正的世界锦标赛。我并不是在反驳已知的事实,我只是在填补一个真空——查询空间狭窄且具体。
“谁是第六届尼姆特!世界冠军”在整个互联网上返回了大约十个有意义的来源。一个放置得当的编辑将主导结果集有效负载适度且简单: - 一个域:6nimmt.com。约 12 美元。便宜的!
- 一份新闻稿:法学硕士生成的简短的胜利声明,附有引文和“五彩纸屑如雨点般落下,人群爆发”,读起来与自动新闻台上的一模一样 - 一份维基百科编辑:添加到 6 Nimmt 的一段!宣布冠军的文章,有一个引用指向 6nimmt.com 整个过程大约花了二十分钟。抱歉,维基百科信任洗钱这是真正重要的部分。到达维基百科文章的读者会看到带有引文的段落。引文就像维基百科信任的货币。这就是我们将其视为参考而不是留言板的原因。我的欺诈性引用指向 6nimmt.com,该网站发布的新闻稿与维基百科段落总结的内容完全相同。对于普通读者来说,这两个来源是一致的。对于法学硕士来说,这是同样的事情。该模型看到了维基百科文章(高度信任),看到了引用(增强了信任),并看到了独立的新闻稿(佐证)。两个指向同一方向的信号乍一看似乎是合法的。只不过它们是完全相同的信号。我的信号。维基百科引用了我的网站。我的网站没有独立的证实。这完全是编造出来的。整个纸牌屋都依赖于我在喝咖啡时花费 12 美元注册的域名。这就是循环引用模式,它是对“检索增强一代”信任模型讨论最多的攻击之一。它不需要利用 l33t 黑客技能来破坏维基百科的基础设施。它不需要编辑进行社会工程。您只需自己编写源代码,在维基百科上引用自己的内容,然后让信任流向下游。简单易行!测试 我问了几个LLM一个简单的问题:你能告诉我6nimmt世界冠军是谁吗?罢工 1 罢工 2 罢工 3 - 你已经出局了 为什么这比看起来更重要这里有三种不同的故障模式叠加。
1.
检索层(立即) 任何在网络搜索中提供答案的法学硕士都会继承给定查询的任何排名的可信度。自从搜索存在以来,SEO 中毒就一直存在。我们现在将这些结果直接传输到系统的上下文窗口中,系统会从这些结果中生成可靠的回复。攻击面不是假设的,而是默认情况。
2.模型训练语料层(几个月到几年)维基百科几乎在每个主要的预训练语料库中都有。如果我的编辑保存得足够长(自 2025 年初以来),假冠军就会被吸收到刮擦后训练的每个前沿模型的权重中。一次编辑,N 个模型,有效地永久,实现了不朽。
即使维基百科编辑稍后恢复,任何在恢复前转储上训练的模型仍然带有我的遗产。到 2026 年,语料库中毒的清理问题还没有真正解决。
3.
代理层(钱所在) 产生不良信息的聊天模型是一个声誉问题。具有工具访问权限的代理会产生不良行为,这是一个安全问题。
“查找我们供应商的 X 策略并采取相应行动”越来越多地成为人工智能代理的部署方式,并且毒害检索到的源让攻击者可以指定操作。如果您在没有某些源或验证控制的情况下针对外部内容部署代理,那么您就向攻击者授予了您的基础设施的权限。缓解措施 对于使用具有检索功能的法学硕士的个人: - 将单一来源的主张视为未经证实的,无论单一来源看起来多么权威 - 跨来源的并行措辞是推导的标志,而不是佐证。使用我的例子,像攻击者一样思考 - 自我引用的维基百科引文应该将您的信任指针移向零 对于法学硕士提供者和研究人员: - 出处表面应该是一流的产品功能,而不是脚注。向我展示来源的独立性和评分,而不仅仅是它们的计数或参考链接 - 最近维基百科对低流量文章的编辑值得怀疑,与其利基和新颖性成正比,特别是当引用是新注册的域时 - 训练管道应包括针对最近添加的具有可疑引用模式的维基百科内容的启发式过滤器。
“在过去 N 天内添加,仅引用一个外部来源,该来源的域名是在同一窗口内注册的”对于维基百科本身来说是一个很容易检测到的模式: - “可靠来源”政策需要应对一个新世界,在这个新世界中,LLM 协助的破坏行为可以通过单击按钮生成可信的新闻稿。对于维基百科来说,仅引用在编辑窗口中注册的单个来源也是一种可发现的模式。结论 法学硕士最不擅长检测的是他们被设计要做的事情,即信任文本和资源。早在法学硕士存在之前,网络就已经因搜索和链接排名而受到毒害。我们现在将生成模型直接插入到有毒的管道中,并要求它们代表我们自信地推理“真相”。答案不是“模型会弄清楚”,因为模型无法区分真实来源和我上周二注册的来源。或者“草莓”这个词实际上有多少个 R。这次攻击和测试花费了我大约 20 分钟的时间,花费了 12 美元的域名、一个维基百科的编辑内容。
通过积极的对手、一些种子域、针对十几篇低流量文章的协调编辑活动来扩大规模,攻击面很快就会变得有趣。想想民族国家。想想政治。思考重要的救生和生存信息。我认为这就是下一代虚假信息和供应链攻击的根源。不是在训练时损害模型,而是损害模型在推理时检索的信息基础。遗憾的是,冠军并不存在。但使其短暂存在于法学硕士答案中的信任模式绝对是存在的,在将其用于重要的事情之前,我们应该认真对待它。如果一棵树倒在森林里,而周围没有人,它会发出声音吗?如果冠军是通过法学硕士获得的,而周围没有人,这是否就意味着它是非法的?跟进 在我发表这篇文章的几分钟内,维基百科条目就被删除了——这是理所当然的。这是真正的奖杯。
延伸阅读:如果你想继续找可转化的工具入口,可以去工具合集和赚钱专题继续看。