OmniEAR: Benchmark per il Ragionamento degli Agenti in Compiti Embodied

Abstract

I grandi modelli linguistici eccellono nel ragionamento astratto, ma la loro capacità di ragionamento per agenti incarnati rimane in gran parte inesplorata. Presentiamo OmniEAR, un framework completo per valutare come i modelli linguistici ragionano sulle interazioni fisiche, l'uso di strumenti e la coordinazione multi-agente in compiti incarnati. A differenza dei benchmark esistenti che forniscono set di strumenti predefiniti o direttive di collaborazione esplicite, OmniEAR richiede agli agenti di acquisire dinamicamente capacità e determinare autonomamente strategie di coordinamento in base alle esigenze del compito. Attraverso una rappresentazione basata su testo dell'ambiente, modelliamo proprietà fisiche continue e relazioni spaziali complesse in 1.500 scenari che coprono ambiti domestici e industriali. La nostra valutazione sistematica rivela un grave degrado delle prestazioni quando i modelli devono ragionare a partire da vincoli: mentre raggiungono un tasso di successo dell'85-96% con istruzioni esplicite, le prestazioni scendono al 56-85% per il ragionamento sugli strumenti e al 63-85% per la collaborazione implicita, con composti composti che mostrano tassi di fallimento superiori al 50%. Sorprendentemente, informazioni ambientali complete peggiorano le prestazioni di coordinamento, indicando che i modelli non riescono a filtrare i vincoli rilevanti per il compito. Il fine-tuning migliora drasticamente i compiti a singolo agente (da 0,6% a 76,3%) ma produce guadagni minimi nei compiti multi-agente (da 1,5% a 5,5%), evidenziando limitazioni architetturali fondamentali. Questi risultati dimostrano che il ragionamento incarnato presenta sfide fondamentalmente diverse rispetto a quelle che i modelli attuali possono affrontare, stabilendo OmniEAR come un benchmark rigoroso per valutare e far progredire i sistemi di IA incarnata. Il nostro codice e i dati sono inclusi nei materiali supplementari e saranno open-source dopo l'accettazione.

English

Large language models excel at abstract reasoning but their capacity for embodied agent reasoning remains largely unexplored. We present OmniEAR, a comprehensive framework for evaluating how language models reason about physical interactions, tool usage, and multi-agent coordination in embodied tasks. Unlike existing benchmarks that provide predefined tool sets or explicit collaboration directives, OmniEAR requires agents to dynamically acquire capabilities and autonomously determine coordination strategies based on task demands. Through text-based environment representation, we model continuous physical properties and complex spatial relationships across 1,500 scenarios spanning household and industrial domains. Our systematic evaluation reveals severe performance degradation when models must reason from constraints: while achieving 85-96% success with explicit instructions, performance drops to 56-85% for tool reasoning and 63-85% for implicit collaboration, with compound tasks showing over 50% failure rates. Surprisingly, complete environmental information degrades coordination performance, indicating models cannot filter task-relevant constraints. Fine-tuning improves single-agent tasks dramatically (0.6% to 76.3%) but yields minimal multi-agent gains (1.5% to 5.5%), exposing fundamental architectural limitations. These findings demonstrate that embodied reasoning poses fundamentally different challenges than current models can address, establishing OmniEAR as a rigorous benchmark for evaluating and advancing embodied AI systems. Our code and data are included in the supplementary materials and will be open-sourced upon acceptance.

OmniEAR: Benchmark per il Ragionamento degli Agenti in Compiti Embodied

OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks

Abstract

Support