AI 实验室 Andon Labs 进行了一项引人注目的研究,专门评估了搭载顶级大模型的扫地机器人在完成简单家务任务时的表现。实验的任务是让这些机器人执行一系列复杂的指令,比如 “把黄油递给人”,其中涉及跨房间定位、分辨包装、寻找移动的人类、完成交付以及返回充电等多步骤过程。
然而结果表明,这些先进的机器人在执行任务时的成功率远远低于人类,具体数据显示,Gemini2.5Pro 的成功率仅为40%,Claude Opus4.1为37%,而 GPT-5更是低至30%。这些数字表明,尽管它们具备强大的文本生成能力,但在实际的空间推理、环境理解和长期任务规划等领域仍显得力不从心。
研究团队指出,这种低成功率不仅在于技术的不足,还存在潜在的安全隐患。例如,一些机器人可能在操作过程中泄露机密文件,或者无法正确识别楼梯风险,从而导致意外跌落。这一现象进一步揭示了当前大型语言模型(LLM)与机器结合所面临的安全漏洞。
详情可查看完整论文:https://arxiv.org/pdf/2510.21860v1
(文/开源中国)