Jenseits der Beschreibung: Kognitive Bewertung fein abgestufter Aktionen für verkörperte Agenten
Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents
November 24, 2025
papers.authors: Dayong Liu, Chao Xu, Weihong Chen, Suyu Zhang, Juncheng Wang, Jiankang Deng, Baigui Sun, Yang Liu
cs.AI
papers.abstract
Multimodale Large Language Models (MLLMs) zeigen vielversprechende Ergebnisse als Entscheidungsmodule für verkörperte Agenten, die in komplexen, physischen Umgebungen agieren. Bestehende Benchmarks priorisieren jedoch häufig hochrangige Planung oder räumliches Schließen, wodurch die fein granulare Handlungsintelligenz, die für verkörperte physische Interaktion erforderlich ist, untererforscht bleibt. Um diese Lücke zu schließen, stellen wir CFG-Bench vor, einen neuen Benchmark, der entwickelt wurde, um diese entscheidende Fähigkeit systematisch zu evaluieren. CFG-Bench besteht aus 1.368 kuratierten Videos, die mit 19.562 Frage-Antwort-Paaren aus drei Modalitäten verknüpft sind und vier kognitive Fähigkeiten adressieren: 1) Physische Interaktion, 2) Temporal-kausale Beziehungen, 3) Intentionales Verständnis und 4) Evaluative Urteilsbildung. Zusammen bieten diese Dimensionen einen systematischen Rahmen, um die Fähigkeit eines Modells zu bewerten, visuelle Beobachtungen in handlungsrelevantes Wissen zu übersetzen, über eine bloße oberflächliche Erkennung hinausgehend. Unsere umfassende Evaluation auf CFG-Bench zeigt, dass führende MLLMs Schwierigkeiten haben, detaillierte Anweisungen für physische Interaktionen zu generieren, und erhebliche Einschränkungen im höherrangigen Schließen bezüglich Intention und Evaluation aufweisen. Darüber hinaus demonstriert überwachtes Fine-Tuning (SFT) auf unseren Daten, dass es einem MLLM beigebracht werden kann, fein granulare Aktionen zu artikulieren, was direkt zu signifikanten Leistungssteigerungen auf etablierten Benchmarks für verkörperte Intelligenz führt. Unsere Analyse unterstreicht diese Limitationen und bietet Erkenntnisse für die Entwicklung fähigerer und fundierterer verkörperter Agenten.
English
Multimodal Large Language Models (MLLMs) show promising results as decision-making engines for embodied agents operating in complex, physical environments. However, existing benchmarks often prioritize high-level planning or spatial reasoning, leaving the fine-grained action intelligence required for embodied physical interaction underexplored. To address this gap, we introduce CFG-Bench, a new benchmark designed to systematically evaluate this crucial capability. CFG-Bench consists of 1,368 curated videos paired with 19,562 three-modalities question-answer pairs targeting four cognitive abilities: 1) Physical Interaction, 2) Temporal-Causal Relation, 3) Intentional Understanding, and 4) Evaluative Judgment. Together, these dimensions provide a systematic framework for assessing a model's ability to translate visual observations into actionable knowledge, moving beyond mere surface-level recognition. Our comprehensive evaluation on CFG-Bench reveals that leading MLLMs struggle to produce detailed instructions for physical interactions and exhibit profound limitations in the higher-order reasoning of intention and evaluation. Moreover, supervised fine-tuning (SFT) on our data demonstrates that teaching an MLLMs to articulate fine-grained actions directly translates to significant performance gains on established embodied benchmarks. Our analysis highlights these limitations and offers insights for developing more capable and grounded embodied agents.