ChatPaper.aiChatPaper

Voorbij Beschrijving: Cognitief Benchmarken van Fijnmazige Actie voor Belichaamde Agenten

Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents

November 24, 2025
Auteurs: Dayong Liu, Chao Xu, Weihong Chen, Suyu Zhang, Juncheng Wang, Jiankang Deng, Baigui Sun, Yang Liu
cs.AI

Samenvatting

Multimodale Large Language Models (MLLM's) tonen veelbelovende resultaten als besluitvormingsmotoren voor belichaamde agents die opereren in complexe, fysieke omgevingen. Bestaande benchmarks richten zich echter vaak op hoogwaardige planning of ruimtelijk redeneren, waardoor de fijnmazige actie-intelligentie die vereist is voor belichaamde fysieke interactie onderbelicht blijft. Om deze leemte op te vullen, introduceren we CFG-Bench, een nieuwe benchmark die ontworpen is om deze cruciale capaciteit systematisch te evalueren. CFG-Bench bestaat uit 1.368 geselecteerde video's, gekoppeld aan 19.562 vraag-antwoordparen in drie modaliteiten, gericht op vier cognitieve vermogens: 1) Fysieke Interactie, 2) Temporeel-causale Relaties, 3) Intentioneel Begrip, en 4) Evaluerend Oordeel. Gezamenlijk bieden deze dimensies een systematisch kader om het vermogen van een model te beoordelen om visuele observaties om te zetten in actiegerichte kennis, voorbij louter oppervlakkige herkenning. Onze uitgebreide evaluatie op CFG-Bench toont aan dat toonaangevende MLLM's moeite hebben met het produceren van gedetailleerde instructies voor fysieke interacties en aanzienlijke beperkingen vertonen in het hogere-orde redeneren over intentie en evaluatie. Bovendien laat supervised fine-tuning (SFT) op onze data zien dat het aanleren van fijnmazige acties aan een MLLM direct vertaalt naar significante prestatieverbeteringen op gevestigde belichaamde benchmarks. Onze analyse belicht deze beperkingen en biedt inzichten voor de ontwikkeling van capabelere en beter gegronde belichaamde agents.
English
Multimodal Large Language Models (MLLMs) show promising results as decision-making engines for embodied agents operating in complex, physical environments. However, existing benchmarks often prioritize high-level planning or spatial reasoning, leaving the fine-grained action intelligence required for embodied physical interaction underexplored. To address this gap, we introduce CFG-Bench, a new benchmark designed to systematically evaluate this crucial capability. CFG-Bench consists of 1,368 curated videos paired with 19,562 three-modalities question-answer pairs targeting four cognitive abilities: 1) Physical Interaction, 2) Temporal-Causal Relation, 3) Intentional Understanding, and 4) Evaluative Judgment. Together, these dimensions provide a systematic framework for assessing a model's ability to translate visual observations into actionable knowledge, moving beyond mere surface-level recognition. Our comprehensive evaluation on CFG-Bench reveals that leading MLLMs struggle to produce detailed instructions for physical interactions and exhibit profound limitations in the higher-order reasoning of intention and evaluation. Moreover, supervised fine-tuning (SFT) on our data demonstrates that teaching an MLLMs to articulate fine-grained actions directly translates to significant performance gains on established embodied benchmarks. Our analysis highlights these limitations and offers insights for developing more capable and grounded embodied agents.
PDF42January 23, 2026