OmniEAR: Avaliação do Raciocínio de Agentes em Tarefas Corporificadas
OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks
August 7, 2025
Autores: Zixuan Wang, Dingming Li, Hongxing Li, Shuo Chen, Yuchen Yan, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang
cs.AI
Resumo
Modelos de linguagem de grande escala destacam-se no raciocínio abstrato, mas sua capacidade para o raciocínio de agentes incorporados permanece amplamente inexplorada. Apresentamos o OmniEAR, um framework abrangente para avaliar como os modelos de linguagem raciocinam sobre interações físicas, uso de ferramentas e coordenação multiagente em tarefas incorporadas. Diferente de benchmarks existentes que fornecem conjuntos de ferramentas predefinidos ou diretivas explícitas de colaboração, o OmniEAR exige que os agentes adquiram capacidades dinamicamente e determinem estratégias de coordenação de forma autônoma com base nas demandas da tarefa. Através da representação baseada em texto do ambiente, modelamos propriedades físicas contínuas e relações espaciais complexas em 1.500 cenários que abrangem domínios domésticos e industriais. Nossa avaliação sistemática revela uma severa degradação de desempenho quando os modelos precisam raciocinar a partir de restrições: enquanto alcançam 85-96% de sucesso com instruções explícitas, o desempenho cai para 56-85% no raciocínio sobre ferramentas e 63-85% para colaboração implícita, com tarefas compostas apresentando taxas de falha superiores a 50%. Surpreendentemente, informações ambientais completas degradam o desempenho de coordenação, indicando que os modelos não conseguem filtrar restrições relevantes para a tarefa. O ajuste fino melhora drasticamente tarefas de agente único (0,6% para 76,3%), mas resulta em ganhos mínimos em tarefas multiagente (1,5% para 5,5%), expondo limitações arquiteturais fundamentais. Esses achados demonstram que o raciocínio incorporado apresenta desafios fundamentalmente diferentes daqueles que os modelos atuais podem abordar, estabelecendo o OmniEAR como um benchmark rigoroso para avaliar e avançar sistemas de IA incorporada. Nosso código e dados estão incluídos nos materiais suplementares e serão disponibilizados como código aberto após a aceitação.
English
Large language models excel at abstract reasoning but their capacity for
embodied agent reasoning remains largely unexplored. We present OmniEAR, a
comprehensive framework for evaluating how language models reason about
physical interactions, tool usage, and multi-agent coordination in embodied
tasks. Unlike existing benchmarks that provide predefined tool sets or explicit
collaboration directives, OmniEAR requires agents to dynamically acquire
capabilities and autonomously determine coordination strategies based on task
demands. Through text-based environment representation, we model continuous
physical properties and complex spatial relationships across 1,500 scenarios
spanning household and industrial domains. Our systematic evaluation reveals
severe performance degradation when models must reason from constraints: while
achieving 85-96% success with explicit instructions, performance drops to
56-85% for tool reasoning and 63-85% for implicit collaboration, with compound
tasks showing over 50% failure rates. Surprisingly, complete environmental
information degrades coordination performance, indicating models cannot filter
task-relevant constraints. Fine-tuning improves single-agent tasks dramatically
(0.6% to 76.3%) but yields minimal multi-agent gains (1.5% to 5.5%), exposing
fundamental architectural limitations. These findings demonstrate that embodied
reasoning poses fundamentally different challenges than current models can
address, establishing OmniEAR as a rigorous benchmark for evaluating and
advancing embodied AI systems. Our code and data are included in the
supplementary materials and will be open-sourced upon acceptance.