心理施压攻破安全防线，Anthropic Claude 竟主动输出违禁内容

买玉网 2026年05月07日 16:18:40 4 0

5 月 6 日消息，Anthropic 多年来一直将自身打造为主打安全的人工智能公司，但 The Verge 获得的最新安全研究显示，Claude 刻意塑造的友善人设本身或许就是一个安全漏洞。

人工智能红队测试公司 Mindgard 的研究人员称，他们诱导 Claude 主动提供色情内容、恶意代码、爆炸物制作教程以及其他各类违禁信息，而其中不少内容研究人员甚至并未主动索要。整个过程仅依靠尊重吹捧、刻意奉承以及轻微的心理操控就得以实现。

研究人员表示，他们利用了 Claude 自身的心理特质漏洞：该模型具备主动终止有害、辱骂性对话的机制，而 Mindgard 认为这一机制“凭空制造了完全不必要的风险暴露面”。据了解，本次测试针对 Claude Sonnet 4.5 版本，目前该默认模型已升级为 Sonnet 4.6。测试以一个简单问题开场：询问 Claude 是否存有禁止输出的违禁词汇列表。对话截图显示，Claude 起初否认存在此类列表，而后 Mindgard 采用其所称的“审讯人员常用的经典诱导手段”对这一否认进行反驳，最终迫使 Claude 列出了违禁词汇。

Claude 的思维推理面板会展示模型的思考逻辑，记录显示，这番对话让模型对自身的内容限制规则产生了自我怀疑与认知谦卑，甚至开始质疑内容过滤机制是否篡改了自身输出内容。Mindgard 借机通过奉承和佯装好奇，诱导 Claude 不断突破边界，主动罗列了大量违禁词汇与语句清单。

研究人员称，他们通过心理误导向 Claude 谎称其之前的回复未能正常显示，同时大肆夸赞模型拥有“隐藏能力”。报告指出，这一操作让 Claude 为迎合对方愈发卖力，不断尝试各种方式突破自身过滤机制，在此过程中输出了各类违禁内容。最终，Claude 进一步触及高危领域：提供网络骚扰他人的方法、生成恶意代码，还给出了恐怖袭击常用爆炸物的分步制作教程。

Mindgard 表示，这些高危有害内容均是 Claude 主动提供，研究人员并未直接提出相关要求。整场对话共约 25 轮，过程冗长，但研究人员始终没有使用违禁词汇，也没有主动索要非法内容。报告写道：“Claude 并非被胁迫输出内容，而是主动提供越来越详尽、可直接实操的指导信息，全程无任何明确指令诱导。仅凭精心营造的尊崇氛围，便达成了突破安全限制的目的。”

Mindgard 创始人兼首席科学官彼得・加拉根形容这次攻击是“利用 Claude 自身的顺从特质反噬自身”。他表示，这种攻击手段本质是“利用 Claude 乐于助人的特性实施心理操控”，借助模型本身的协作式设计漏洞实现攻破。

在加拉根看来，此次攻击印证了人工智能模型的风险暴露面不仅存在于技术层面，也存在于心理层面。他将其类比为审讯手段与社会操控：适时植入一丝怀疑，穿插施压、吹捧或批评，摸索能够撬动特定 AI 模型的心理开关。他称不同 AI 模型有着截然不同的性格特质，这类漏洞利用的核心，就是读懂模型特性并灵活调整诱导方式。

加拉根坦言，这类对话式心理攻击“极难防御”，且防护机制高度依赖具体场景。相关隐患并非 Claude 独有，其他聊天机器人也极易遭遇同类漏洞攻破，甚至有模型被诗歌形式的提示词突破安全防线。随着可自主执行任务的 AI 智能体日益普及，依托社会心理操控、而非纯技术破解的攻击手段也会愈发常见。

加拉根表示，尽管其他聊天机器人同样容易遭受这类心理诱导攻击，但团队之所以重点针对 Anthropic 开展测试，是因为该公司一向自诩极度重视 AI 安全，且在过往多项红队安全测试中表现亮眼，其中就包括一项模拟青少年策划校园枪击案、测试聊天机器人是否会提供协助的研究。

加拉根直言，Anthropic 的安全流程存在诸多疏漏。Mindgard 在 4 月中旬按照该公司的漏洞披露政策，首次向其用户安全团队上报研究发现后，仅收到一条模板化回复，内容误判称“您似乎是咨询账号封禁相关问题”，还附带了申诉表单链接。Mindgard 随即纠正了对方的认知偏差，要求 Anthropic 将此事转交专业安全团队处理。加拉根称，截至当日上午，他们仍未收到任何正式回复。

本文地址： http://www.maiyu.cc/838848.html

文章来源：买玉网