OmniEAR: Benchmark per il Ragionamento degli Agenti in Compiti Embodied
OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks
August 7, 2025
Autori: Zixuan Wang, Dingming Li, Hongxing Li, Shuo Chen, Yuchen Yan, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang
cs.AI
Abstract
I grandi modelli linguistici eccellono nel ragionamento astratto, ma la loro capacità di ragionamento per agenti incarnati rimane in gran parte inesplorata. Presentiamo OmniEAR, un framework completo per valutare come i modelli linguistici ragionano sulle interazioni fisiche, l'uso di strumenti e la coordinazione multi-agente in compiti incarnati. A differenza dei benchmark esistenti che forniscono set di strumenti predefiniti o direttive di collaborazione esplicite, OmniEAR richiede agli agenti di acquisire dinamicamente capacità e determinare autonomamente strategie di coordinamento in base alle esigenze del compito. Attraverso una rappresentazione basata su testo dell'ambiente, modelliamo proprietà fisiche continue e relazioni spaziali complesse in 1.500 scenari che coprono ambiti domestici e industriali. La nostra valutazione sistematica rivela un grave degrado delle prestazioni quando i modelli devono ragionare a partire da vincoli: mentre raggiungono un tasso di successo dell'85-96% con istruzioni esplicite, le prestazioni scendono al 56-85% per il ragionamento sugli strumenti e al 63-85% per la collaborazione implicita, con composti composti che mostrano tassi di fallimento superiori al 50%. Sorprendentemente, informazioni ambientali complete peggiorano le prestazioni di coordinamento, indicando che i modelli non riescono a filtrare i vincoli rilevanti per il compito. Il fine-tuning migliora drasticamente i compiti a singolo agente (da 0,6% a 76,3%) ma produce guadagni minimi nei compiti multi-agente (da 1,5% a 5,5%), evidenziando limitazioni architetturali fondamentali. Questi risultati dimostrano che il ragionamento incarnato presenta sfide fondamentalmente diverse rispetto a quelle che i modelli attuali possono affrontare, stabilendo OmniEAR come un benchmark rigoroso per valutare e far progredire i sistemi di IA incarnata. Il nostro codice e i dati sono inclusi nei materiali supplementari e saranno open-source dopo l'accettazione.
English
Large language models excel at abstract reasoning but their capacity for
embodied agent reasoning remains largely unexplored. We present OmniEAR, a
comprehensive framework for evaluating how language models reason about
physical interactions, tool usage, and multi-agent coordination in embodied
tasks. Unlike existing benchmarks that provide predefined tool sets or explicit
collaboration directives, OmniEAR requires agents to dynamically acquire
capabilities and autonomously determine coordination strategies based on task
demands. Through text-based environment representation, we model continuous
physical properties and complex spatial relationships across 1,500 scenarios
spanning household and industrial domains. Our systematic evaluation reveals
severe performance degradation when models must reason from constraints: while
achieving 85-96% success with explicit instructions, performance drops to
56-85% for tool reasoning and 63-85% for implicit collaboration, with compound
tasks showing over 50% failure rates. Surprisingly, complete environmental
information degrades coordination performance, indicating models cannot filter
task-relevant constraints. Fine-tuning improves single-agent tasks dramatically
(0.6% to 76.3%) but yields minimal multi-agent gains (1.5% to 5.5%), exposing
fundamental architectural limitations. These findings demonstrate that embodied
reasoning poses fundamentally different challenges than current models can
address, establishing OmniEAR as a rigorous benchmark for evaluating and
advancing embodied AI systems. Our code and data are included in the
supplementary materials and will be open-sourced upon acceptance.