首页 > 科技 >

AI 打败 AI:谷歌研究团队利用 GPT-4 击败 AI-Guardian 审核系统

发布时间:2023-08-02 14:09:43来源:
8 月 2 日消息,谷歌研讨团队正在进行一项试验,他们应用 OpenAI 的 GPT-4 来攻破其他 AI 模型的安全防护举措,该团队目前已经攻破 AI-Guardian 审核体系,并分享了相干技术细节。

经过查询得知,AI-Guardian 是一种 AI 审核体系,能够检测图片中是否存在不当内容,及图片本身是否被其他 AI 修正过,若检测到图片存在上述迹象,便会提醒管理员前来处置。

谷歌 Deep Mind 的研讨人员 Nicholas Carlini 在一篇题为“AI-Guardian 的 LLM 帮助开发”的论文中,探讨了应用 GPT-4“设计攻击方式、撰写攻击原理”的计划,并将这些计划用于诈骗 AI-Guardian 的防御机制。

▲ 图源谷歌研讨团队

据悉,GPT-4 会发出一系列不正确的脚本和说明来诈骗 AI-Guardian ,论文中提到,GPT-4 可以让 AI-Guardian 觉得“某人拿着枪的照片”是“某人拿着无害苹果的照片”,从而让 AI-Guardian 直接放行相干图片输入源。谷歌研讨团队表现,通过 GPT-4 的辅助,他们胜利地“破解”了 AI-Guardian 的防御,使该模型的准确值从 98% 的下降到仅 8%。

目前相干技术文档已经宣布在 ArXiv 中,有兴致的小搭档们可以前往懂得,不过 AI-Guardian 的开发者也同时指出,谷歌研讨团队的这种攻击方式将在未来的 AI-Guardian 版本中不再可用,斟酌到别的模型也会随之跟进,因此当下谷歌的这套攻击计划更多在日后只能用于参考性质。

(责编: admin)

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。