Au-delà de la description : Évaluation cognitive des actions granulaires pour les agents incarnés
Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents
November 24, 2025
papers.authors: Dayong Liu, Chao Xu, Weihong Chen, Suyu Zhang, Juncheng Wang, Jiankang Deng, Baigui Sun, Yang Liu
cs.AI
papers.abstract
Les modèles de langage multimodaux (MLLM) présentent des résultats prometteurs en tant que moteurs décisionnels pour les agents incarnés opérant dans des environnements physiques complexes. Cependant, les benchmarks existants privilégient souvent la planification de haut niveau ou le raisonnement spatial, laissant l'intelligence d'action fine nécessaire à l'interaction physique incarnée sous-explorée. Pour combler cette lacune, nous présentons CFG-Bench, un nouveau benchmark conçu pour évaluer systématiquement cette capacité cruciale. CFG-Bench se compose de 1 368 vidéos sélectionnées associées à 19 562 paires question-réponse à trois modalités ciblant quatre capacités cognitives : 1) Interaction Physique, 2) Relation Temporelle-Causale, 3) Compréhension Intentionnelle, et 4) Jugement Évaluatif. Ensemble, ces dimensions fournissent un cadre systématique pour évaluer la capacité d'un modèle à traduire les observations visuelles en connaissances actionnables, au-delà de la simple reconnaissance superficielle. Notre évaluation exhaustive sur CFG-Bench révèle que les principaux MLLM peinent à produire des instructions détaillées pour les interactions physiques et présentent des limitations profondes dans le raisonnement d'ordre supérieur concernant l'intention et l'évaluation. De plus, le fine-tuning supervisé (SFT) sur nos données démontre qu'enseigner à un MLLM à articuler des actions fines se traduit directement par des gains de performance significatifs sur les benchmarks incarnés établis. Notre analyse met en lumière ces limitations et offre des perspectives pour développer des agents incarnés plus compétents et ancrés dans la réalité.
English
Multimodal Large Language Models (MLLMs) show promising results as decision-making engines for embodied agents operating in complex, physical environments. However, existing benchmarks often prioritize high-level planning or spatial reasoning, leaving the fine-grained action intelligence required for embodied physical interaction underexplored. To address this gap, we introduce CFG-Bench, a new benchmark designed to systematically evaluate this crucial capability. CFG-Bench consists of 1,368 curated videos paired with 19,562 three-modalities question-answer pairs targeting four cognitive abilities: 1) Physical Interaction, 2) Temporal-Causal Relation, 3) Intentional Understanding, and 4) Evaluative Judgment. Together, these dimensions provide a systematic framework for assessing a model's ability to translate visual observations into actionable knowledge, moving beyond mere surface-level recognition. Our comprehensive evaluation on CFG-Bench reveals that leading MLLMs struggle to produce detailed instructions for physical interactions and exhibit profound limitations in the higher-order reasoning of intention and evaluation. Moreover, supervised fine-tuning (SFT) on our data demonstrates that teaching an MLLMs to articulate fine-grained actions directly translates to significant performance gains on established embodied benchmarks. Our analysis highlights these limitations and offers insights for developing more capable and grounded embodied agents.