OmniEAR : Évaluation des capacités de raisonnement des agents dans des tâches incarnées
OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks
August 7, 2025
papers.authors: Zixuan Wang, Dingming Li, Hongxing Li, Shuo Chen, Yuchen Yan, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang
cs.AI
papers.abstract
Les grands modèles de langage excellent dans le raisonnement abstrait, mais leur capacité à raisonner en tant qu'agents incarnés reste largement inexplorée. Nous présentons OmniEAR, un cadre complet pour évaluer comment les modèles de langage raisonnent sur les interactions physiques, l'utilisation d'outils et la coordination multi-agents dans des tâches incarnées. Contrairement aux benchmarks existants qui fournissent des ensembles d'outils prédéfinis ou des directives de collaboration explicites, OmniEAR exige que les agents acquièrent dynamiquement des capacités et déterminent de manière autonome des stratégies de coordination en fonction des exigences de la tâche. Grâce à une représentation textuelle de l'environnement, nous modélisons des propriétés physiques continues et des relations spatiales complexes à travers 1 500 scénarios couvrant les domaines domestiques et industriels. Notre évaluation systématique révèle une dégradation sévère des performances lorsque les modèles doivent raisonner à partir de contraintes : bien qu'ils atteignent un taux de réussite de 85 à 96 % avec des instructions explicites, les performances chutent à 56-85 % pour le raisonnement sur les outils et à 63-85 % pour la collaboration implicite, avec des taux d'échec dépassant 50 % pour les tâches complexes. Étonnamment, une information environnementale complète dégrade les performances de coordination, indiquant que les modèles ne parviennent pas à filtrer les contraintes pertinentes pour la tâche. Le fine-tuning améliore considérablement les tâches mono-agent (de 0,6 % à 76,3 %) mais ne procure que des gains minimes en multi-agent (de 1,5 % à 5,5 %), révélant des limitations architecturales fondamentales. Ces résultats démontrent que le raisonnement incarné pose des défis fondamentalement différents de ceux que les modèles actuels peuvent résoudre, établissant OmniEAR comme un benchmark rigoureux pour évaluer et faire progresser les systèmes d'IA incarnés. Notre code et nos données sont inclus dans les matériaux supplémentaires et seront rendus publics après acceptation.
English
Large language models excel at abstract reasoning but their capacity for
embodied agent reasoning remains largely unexplored. We present OmniEAR, a
comprehensive framework for evaluating how language models reason about
physical interactions, tool usage, and multi-agent coordination in embodied
tasks. Unlike existing benchmarks that provide predefined tool sets or explicit
collaboration directives, OmniEAR requires agents to dynamically acquire
capabilities and autonomously determine coordination strategies based on task
demands. Through text-based environment representation, we model continuous
physical properties and complex spatial relationships across 1,500 scenarios
spanning household and industrial domains. Our systematic evaluation reveals
severe performance degradation when models must reason from constraints: while
achieving 85-96% success with explicit instructions, performance drops to
56-85% for tool reasoning and 63-85% for implicit collaboration, with compound
tasks showing over 50% failure rates. Surprisingly, complete environmental
information degrades coordination performance, indicating models cannot filter
task-relevant constraints. Fine-tuning improves single-agent tasks dramatically
(0.6% to 76.3%) but yields minimal multi-agent gains (1.5% to 5.5%), exposing
fundamental architectural limitations. These findings demonstrate that embodied
reasoning poses fundamentally different challenges than current models can
address, establishing OmniEAR as a rigorous benchmark for evaluating and
advancing embodied AI systems. Our code and data are included in the
supplementary materials and will be open-sourced upon acceptance.