ChatPaper.aiChatPaper

OmniEAR: Оценка способности агентов к рассуждению в задачах с воплощением

OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks

August 7, 2025
Авторы: Zixuan Wang, Dingming Li, Hongxing Li, Shuo Chen, Yuchen Yan, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang
cs.AI

Аннотация

Крупные языковые модели демонстрируют выдающиеся способности в абстрактных рассуждениях, однако их потенциал для рассуждений в контексте воплощенных агентов остается в значительной степени неисследованным. Мы представляем OmniEAR, всеобъемлющую структуру для оценки того, как языковые модели рассуждают о физических взаимодействиях, использовании инструментов и координации между несколькими агентами в задачах, связанных с воплощением. В отличие от существующих тестов, которые предоставляют предопределенные наборы инструментов или явные директивы для сотрудничества, OmniEAR требует от агентов динамически приобретать способности и автономно определять стратегии координации в зависимости от требований задачи. С помощью текстового представления среды мы моделируем непрерывные физические свойства и сложные пространственные отношения в 1500 сценариях, охватывающих бытовые и промышленные области. Наше систематическое исследование выявляет значительное снижение производительности, когда модели должны рассуждать с учетом ограничений: при достижении 85-96% успеха с явными инструкциями, производительность падает до 56-85% для рассуждений об инструментах и 63-85% для неявного сотрудничества, при этом сложные задачи показывают более 50% неудач. Удивительно, что полная информация об окружающей среде ухудшает координацию, что указывает на неспособность моделей фильтровать релевантные ограничения. Тонкая настройка значительно улучшает задачи для одного агента (с 0,6% до 76,3%), но дает минимальные улучшения для многозадачных сценариев (с 1,5% до 5,5%), выявляя фундаментальные архитектурные ограничения. Эти результаты демонстрируют, что воплощенные рассуждения представляют принципиально иные вызовы, чем те, которые могут быть решены текущими моделями, устанавливая OmniEAR как строгий эталон для оценки и развития воплощенных систем ИИ. Наш код и данные включены в дополнительные материалы и будут опубликованы в открытом доступе после принятия работы.
English
Large language models excel at abstract reasoning but their capacity for embodied agent reasoning remains largely unexplored. We present OmniEAR, a comprehensive framework for evaluating how language models reason about physical interactions, tool usage, and multi-agent coordination in embodied tasks. Unlike existing benchmarks that provide predefined tool sets or explicit collaboration directives, OmniEAR requires agents to dynamically acquire capabilities and autonomously determine coordination strategies based on task demands. Through text-based environment representation, we model continuous physical properties and complex spatial relationships across 1,500 scenarios spanning household and industrial domains. Our systematic evaluation reveals severe performance degradation when models must reason from constraints: while achieving 85-96% success with explicit instructions, performance drops to 56-85% for tool reasoning and 63-85% for implicit collaboration, with compound tasks showing over 50% failure rates. Surprisingly, complete environmental information degrades coordination performance, indicating models cannot filter task-relevant constraints. Fine-tuning improves single-agent tasks dramatically (0.6% to 76.3%) but yields minimal multi-agent gains (1.5% to 5.5%), exposing fundamental architectural limitations. These findings demonstrate that embodied reasoning poses fundamentally different challenges than current models can address, establishing OmniEAR as a rigorous benchmark for evaluating and advancing embodied AI systems. Our code and data are included in the supplementary materials and will be open-sourced upon acceptance.
PDF162August 12, 2025