OmniEAR : Évaluation des capacités de raisonnement des agents dans des tâches incarnées

Résumé

Les grands modèles de langage excellent dans le raisonnement abstrait, mais leur capacité à raisonner en tant qu'agents incarnés reste largement inexplorée. Nous présentons OmniEAR, un cadre complet pour évaluer comment les modèles de langage raisonnent sur les interactions physiques, l'utilisation d'outils et la coordination multi-agents dans des tâches incarnées. Contrairement aux benchmarks existants qui fournissent des ensembles d'outils prédéfinis ou des directives de collaboration explicites, OmniEAR exige que les agents acquièrent dynamiquement des capacités et déterminent de manière autonome des stratégies de coordination en fonction des exigences de la tâche. Grâce à une représentation textuelle de l'environnement, nous modélisons des propriétés physiques continues et des relations spatiales complexes à travers 1 500 scénarios couvrant les domaines domestiques et industriels. Notre évaluation systématique révèle une dégradation sévère des performances lorsque les modèles doivent raisonner à partir de contraintes : bien qu'ils atteignent un taux de réussite de 85 à 96 % avec des instructions explicites, les performances chutent à 56-85 % pour le raisonnement sur les outils et à 63-85 % pour la collaboration implicite, avec des taux d'échec dépassant 50 % pour les tâches complexes. Étonnamment, une information environnementale complète dégrade les performances de coordination, indiquant que les modèles ne parviennent pas à filtrer les contraintes pertinentes pour la tâche. Le fine-tuning améliore considérablement les tâches mono-agent (de 0,6 % à 76,3 %) mais ne procure que des gains minimes en multi-agent (de 1,5 % à 5,5 %), révélant des limitations architecturales fondamentales. Ces résultats démontrent que le raisonnement incarné pose des défis fondamentalement différents de ceux que les modèles actuels peuvent résoudre, établissant OmniEAR comme un benchmark rigoureux pour évaluer et faire progresser les systèmes d'IA incarnés. Notre code et nos données sont inclus dans les matériaux supplémentaires et seront rendus publics après acceptation.

English

Large language models excel at abstract reasoning but their capacity for embodied agent reasoning remains largely unexplored. We present OmniEAR, a comprehensive framework for evaluating how language models reason about physical interactions, tool usage, and multi-agent coordination in embodied tasks. Unlike existing benchmarks that provide predefined tool sets or explicit collaboration directives, OmniEAR requires agents to dynamically acquire capabilities and autonomously determine coordination strategies based on task demands. Through text-based environment representation, we model continuous physical properties and complex spatial relationships across 1,500 scenarios spanning household and industrial domains. Our systematic evaluation reveals severe performance degradation when models must reason from constraints: while achieving 85-96% success with explicit instructions, performance drops to 56-85% for tool reasoning and 63-85% for implicit collaboration, with compound tasks showing over 50% failure rates. Surprisingly, complete environmental information degrades coordination performance, indicating models cannot filter task-relevant constraints. Fine-tuning improves single-agent tasks dramatically (0.6% to 76.3%) but yields minimal multi-agent gains (1.5% to 5.5%), exposing fundamental architectural limitations. These findings demonstrate that embodied reasoning poses fundamentally different challenges than current models can address, establishing OmniEAR as a rigorous benchmark for evaluating and advancing embodied AI systems. Our code and data are included in the supplementary materials and will be open-sourced upon acceptance.