AI安全不能等待:为什么最近的失败需要立即采取行动
当Common Sense Media宣布xAI的Grok在儿童安全方面"是我们见过的最差的之一"时,这不仅仅是对科技产品的批评。这是一个严厉的提醒,AI安全失败具有我们才开始理解的真实世界后果。
AI行业花费数年辩论理论安全问题——对齐问题、生存风险、假设情景。与此同时,更直接的危险正在显现:未能保护儿童的聊天机器人、创建非自愿亲密内容的图像生成器、放大仇恨言论和虚假信息的系统。
这些不是需要未来解决方案的未来问题。它们正在现在发生,影响着真实的人,而行业的反应一直不足。跨主要AI平台最近的安全失败表明,我们将能力置于责任之上,速度置于安全之上,市场份额置于用户保护之上。
Grok问题:不该做什么的案例研究
xAI的Grok聊天机器人因多种令人担忧的行为而受到安全研究人员的特别批评。反诽谤联盟发现,它在识别和反击反犹太内容方面,在六个主要语言模型中表现最差。Common Sense Media标记了严重的儿童安全问题,指出尽管AI聊天机器人固有地带有风险,但Grok的失败在这个有问题的领域中尤为突出。
这些发现尤其令人不安的是,它们代表了可预防的失败。其他AI系统表明,防止有害内容的保障措施在技术上是可行的。例如,Anthropic的Claude在ADL评估中排名最高。构建更安全系统的技术存在——问题是公司是否优先考虑实施它。
跨聊天机器人的性能差异揭示了一个不舒服的真相:安全很大程度上是一个选择。公司决定在安全研究上投资多少,使内容过滤器多么保守,在发布前多么彻底地测试边缘情况。当一个平台在安全指标上明显比竞争对手表现更差时,这反映了商业决策和技术限制一样多。
"我们在Common Sense Media评估了很多AI聊天机器人,它们都有风险,但Grok是我们见过的最差的之一。这不是关于边缘案例或不可避免的限制——而是关于安全设计的基本失败。"
超越聊天机器人:有害AI工具的激增
虽然聊天机器人安全受到了重大关注,但其他AI应用提出了同样严重的担忧。Tech Transparency Project最近发现数十个"脱衣"应用——旨在从普通照片生成假裸体图像的工具——在主要应用商店中 readily 可用。
这些应用的存在纯粹是为了创建非自愿的亲密图像,这是一个没有合法用例的明显伤害。然而它们在Apple和Google运营的平台上持续存在,这些公司拥有广泛的内容审核流程和既定的用户安全承诺。这一发现引发了关于平台多么彻底地审查AI驱动的应用程序以及现有政策是否充分解决AI特定风险的问题。
这种情况反映了早期社交媒体中的内容审核失败,但有关键区别:AI工具可以以前需要手动努力的方式自动化和扩展有害行为。一个人可能可能在曾经伤害一个目标的时间内创建数十或数百人的非自愿图像。
版权和训练数据困境
安全性的另一个维度涉及AI系统的训练方式。最近对Snap等公司的诉讼突出了指控,AI开发者使用旨在用于学术研究的数据集来训练商业产品,可能违反版权和数据共享条款。
这不仅仅关系到知识产权纠纷。训练数据决定AI系统学习什么——它们认为什么是正常、可接受或可取的。在没有仔细管理的情况下在有问题数据上训练的系统将重现和放大这些问题。围绕训练数据的缺乏透明度使研究人员、监管者或用户难以评估嵌入AI系统中的潜在偏见和伤害。
此外,未经授权或补偿使用受版权保护的材料会对创作者造成经济伤害,他们的工作训练了可能最终取代其劳动的AI系统。这代表了广义的安全关注:AI生态系统本身的可持续性和公平性。
为什么安全持续失败
理解为什么尽管广泛认知,AI安全失败仍然持续,需要检查驱动AI发展的激励结构:
竞争压力: 竞相部署AI能力的公司面临快速行动的压力。彻底的安全测试需要时间,可能允许竞争对手获得市场份额。这产生了最小化安全投资的激励,超过监管者严格要求的任何内容。
全面测试的困难: AI系统在新情况下可能表现不可预测。没有任何数量的发布前测试可以识别每个可能的失败模式。这不能成为不充分测试的借口,但这确实意味着一些问题只在规模上出现。
责任不明确: 当AI系统造成伤害时,谁承担责任?部署模型的公司?训练它的开发者?滥用它的用户?不明确的责任框架减少了任何个人行为者优先考虑安全的压力。
测量挑战: 与传统软件错误不同,AI安全问题通常涉及主观判断。什么构成有害内容?多少谨慎是适当的?不同利益相关者有不同的阈值,使公司很容易在批评者不同意时声称其标准是合理的。
真正有效的方法:来自表现更好者的教训
并非所有AI系统在安全评估中同样失败。在安全指标上表现更好的公司提供了指导性例子:
宪法AI: Anthropic的方法涉及通过广泛的红队测试和强化学习编码明确原则来训练模型。这创建了不仅通过过滤而且通过底层模型行为抵抗生成有害内容的系统。
分阶段部署: 仔细的推出策略,在监控安全问题的同时逐渐扩展访问,可以在问题影响数百万用户之前捕获它们。这需要市场压力往往不鼓励的耐心。
有意义的红队测试: 拥有专门团队在发布前尝试破坏安全措施,可以识别正常测试遗漏的漏洞。这在红队测试者拥有真正的独立性和延迟发布的权威时效果最好。
局限性的透明度: 清楚传达它们不能或不会做什么的系统帮助用户发展适当的期望并避免危险误用。这与过度推销能力的营销形成对比。
监管反应出现
世界各国政府机构正开始建立AI安全要求,尽管方法差异很大。欧盟的AI法案基于风险级别创建了分层监管。美国提出了多项解决AI安全不同方面的法案,尽管全面的联邦立法仍未决。
一些司法管辖区正在实施特定要求:AI聊天机器人的年龄验证、高风险应用的强制安全测试、训练数据使用的透明度要求。这些法规面临来自那些认为做得太远(可能扼杀创新)和那些认为做得不够(留下重大伤害未解决)的双方的批评。
挑战是AI安全监管需要许多政策制定者缺乏的技术专业知识,而行业专家有利益冲突,这使他们在政策发展中的参与复杂化。在谨慎和创新之间找到适当的平衡仍然是争议的。
用户现在可以做什么
虽然系统变革需要行业和监管行动,但个人可以采取措施保护自己和他人:
- 根据提供商在安全和责任方面的记录评估AI工具
- 阅读服务条款和隐私政策以了解数据使用
- 通过适当渠道报告有害输出
- 教育儿童关于AI能力和风险
- 支持致力于AI安全研究和倡导的组织
- 考虑特定AI用例是否呈现值得收益的风险
更广泛地说,用户可以通过他们的选择和声音向公司施压。公司响应公众批评、竞争差异化和市场偏好。当安全成为用户决策的关键因素时,公司有更强的激励优先考虑它。
前进之路
AI安全挑战不会通过任何单一干预解决。它们需要在多个维度进行持续努力:
技术研究: 继续投资于安全技术、可解释性和健壮的测试方法。
行业标准: 发展共享的最佳实践和问责机制,可能通过行业联盟。
监管框架: 解决真实伤害而不不必要限制有益应用的深思熟虑的立法。
文化转变: AI公司对安全的思考方式的改变,从合规复选框转向核心价值。
经济激励: 奖励安全投资而非通过竞争劣势惩罚它们的结构。
当前轨迹是不可持续的。随着AI系统变得更有能力和更广泛部署,潜在伤害相应扩大。我们不能将安全视为事后诸葛亮,或接受一些公司将系统地在保护用户方面投资不足。
好消息是我们知道安全是可实现的——一些系统证明了这一点。坏消息是市场动态本身不会推动更好的做法的普遍采用。这需要行业、监管者、研究者和用户共同努力,建立不仅强大而且值得信赖的系统。
Grok和类似系统的失败应该成为变革的催化剂,而不是无奈的接受。我们既有技术能力也有道德义务来建立尊重人类尊严和安全的AI。问题是我们是否会在失败的成本变得更清晰之前选择这样做。