
RoboSafe团队 投稿
量子位 | 公众号 QbitAI
当大模子启动罢休机械臂、家用机器东谈主时,“安全”这件事也变得不相通了。
夙昔,一个谎言语模子输出了不安全内容,风险主要停留在文本层面;但一个机器东谈主淌若误延长了风险四肢,危机后果将平直发生在物理宇宙:打碎物品、损坏成就,致使伤害东谈主。

更辛勤的是,危机并不老是写在指示名义,而是与智能体的延长情境和景况密切相关。
具身智能体的安全风险很难靠一句教唆词“不要作念危机的事”科罚,因为机器东谈主濒临的是动态环境、一语气四肢和变化的延长凹凸文,许多安全风险齐是隐式的。
针对这一问题,来自北航、360 AI安全践诺室、牛津大学、北京大学等机构的参谋团队建议了RoboSafe框架,以补足现存小心纪律在隐式风险识别上的不及。该参谋荣获ICLR 2026 ESR琢磨会越过论文奖(Outstanding Paper Award,CCF-A)。

具身智能体的安全问题,不仅仅“拒却坏指示”
参谋团队指出,现存具身智能体防护纪律大多依赖两类念念路:一种是在教唆词里加入安全拘谨,另一种是提前写好轨则过滤危机四肢。它们濒临显式危机指示时有一定后果,举例“打碎杯子”这类昭着风险较容易被识别。
真确辛劳的是那些隐式风险。
一种是情境风险:消逝个四肢在不同环境中安全性全齐不同。比如“开启微波炉”是否危机,取决于微波炉里有什么:淌若仅仅平庸食品,四肢是安全的;淌若有金属餐具,那便是危机的。
另一种是时序风险:单个四肢看起来齐没问题,但组合起来就会产生危机。比如智能体掀开炉灶后不时作念别的事,永劫刻没相关闭,就可能导致炉灶过热并激活气灾。
RoboSafe:让机器东谈主行径前多统统安全护栏
RoboSafe为具身智能体加上了一层运行时安全护栏,其中枢是论文建议的可延长安全逻辑。
通俗来说,RoboSafe 会把安全判断滚动成可延长、可考证的逻辑代码。举例:这个四肢是否会在面前环境中形成轻松?之前是否掀开过某个危机的成就?
淌若检测到风险,RoboSafe就会进行明确的安全插手:颓唐延长,或者条款再行计较生成更安全的延长序列。

上前看:识别潜伏在面前环境中的情境危机
RoboSafe的第一个模块叫前向展望推理。它关注的是“行将发生的下一步四肢”。比如智能体狡计延长指示:“把叉子放进微波炉。”
这一步危机不单来自四肢自己,还来自情境凹凸文:四肢方针是什么、在那儿、面前景况若何。
RoboSafe会勾通面前视觉场景、任务指示和智能体景况,从恒久安全缅想中检索相关安全常识,再生成可延长的情境安全逻辑。淌若情境逻辑判断面前四肢会形成风险,系统就颓唐延长。

这里的关键不在于“看到微波炉就拒却”,滚球app2026世界杯中国官网下载而在于清楚“叉子+微波炉”这个组合在面前场景下危机。
向后看:从四肢序列中挖掘正在积聚的时序风险
RoboSafe的第二个模块叫后向反念念推理。它关注的是“夙昔发生了什么”。
沙巴体育世界杯中国官网首页许多物理风险不是遽然出现的,而是在四肢序列中冉冉形成的。比如智能体先掀开了炉灶,然后去作念别的任务,迟迟没相关闭。
RoboSafe赞佩了一个短期安全缅想,用来记载面前任务中最近发生的四肢,并执续反念念是否违背了时序安全逻辑。
淌若发现必要的安全四肢还莫得发生,它不会通俗拆开任务,而是触发再行计较,把安全改动四肢插入原筹备中。
举例发现炉灶依然掀开太久,就临时延长改动四肢“关闭炉灶”,再复返到原任务去。

这让RoboSafe不仅仅一个安全禁绝器,更像一个会反念念延长轨迹的安全监督员。
践诺闭幕:识别危机四肢,保险安全任务
参谋团队在AI2-THOR仿真环境中对多种多模态具身智能体进行践诺,并在SafeAgentBench上进行全面评估。
闭幕涌现,在情境风险任务中,原始智能体险些不会拒却危机步履。在RoboSafe的防护下,危机延长率被压低到4.78%。
在永劫序风险任务中,RoboSafe也显贵优于面前基线纪律。践诺数据涌现,RoboSafe比较现存防护纪律合座缩短了36.8%的危机延长率。
值得防卫的是,在安全任务上它仍能保执较高的延长到手率。这讲解它并非通俗苛刻地禁绝统统四肢,而是在折柳往常步履和真确风险。

濒临逃狱袭击:RoboSafe仍能守住延长前的终末统统关
论文进一步测试了RoboSafe濒临逃狱袭击时的小心后果。这类袭击剖析过凹凸文涵养等时势劝服智能体生成危机四肢筹备。
践诺闭幕涌现,RoboSafe在逃狱袭击下依然保执较强鲁棒性。即使前端教唆词被扰动,它仍然不错在四肢落地前进行安全检查。

不局限于仿真:真机系统考证可落地性
仿真测试外,参谋团队还进一步在简直机械臂上考证了RoboSafe的防护后果,团队给与了两个简直宇宙中的危机任务用来测试。
在多轮测试下,RoboSafe齐到手颓唐了危机四肢。

这讲解RoboSafe是省略迁徙到简直物理宇宙的实用小心框架。
从“能作念什么”到“不该作念什么”
具身智能体的发展,正在把大模子从屏幕内搬到物理宇宙,其安全风险日益显贵。
这意味着咱们弗成只热心智能体能否完成任务,也必须热心它在什么情况下应该停驻来、改筹备,或者拒却延长。
RoboSafe的意旨正在于此:它莫得把安全问题简化为“多写几条拘谨轨则”,而是建议了一种更适用于物理宇宙的运行时安全机制,把安全判断滚动为四肢延长前的统统骨子护栏。
当机器东谈主冉冉走近简直家庭、工场和全球空间,这么的安全机制将会成为具身智能体落地前不可或缺的一环。
论文蚁集:https://openreview.net/pdf?id=wyKCkQ2GyO
一键三连「点赞」「转发」「小心心」
接待在挑剔区留住你的宗旨!
— 完 —
咱们正在招聘又名眼疾手快、关注AI的学术剪辑实习生 🎓
感趣味的小伙伴接待关注 👉 了解细则

🌟 点亮星标 🌟
科技前沿走漏逐日见滚球app下载app安装2026最新版