記述を超えて:具現化エージェントのための細粒度行動の認知的ベンチマーキング
Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents
November 24, 2025
著者: Dayong Liu, Chao Xu, Weihong Chen, Suyu Zhang, Juncheng Wang, Jiankang Deng, Baigui Sun, Yang Liu
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)は、複雑な物理環境で動作するエンボディードエージェントの意思決定エンジンとして有望な結果を示している。しかし、既存のベンチマークは高レベルの計画立案や空間推論を優先する傾向があり、エンボディード物理インタラクションに必要な細粒度な行動知能は十分に検討されていない。この課題を解決するため、我々はこの重要な能力を体系的に評価する新しいベンチマークCFG-Benchを提案する。CFG-Benchは、1,368本の精選された動画と19,562組の三モダリティ質問応答ペアで構成され、以下の4つの認知能力に焦点を当てる:1)物理的相互作用、2)時間的因果関係、3)意図理解、4)評価的判断。これらの次元を統合することで、表面的な認識を超えて、視覚的観察を実践可能な知識へ変換するモデルの能力を評価する体系的枠組みを提供する。CFG-Benchによる包括的評価により、主要なMLLMは物理的相互作用の詳細な指示生成に課題があり、意図と評価に関する高次推論に深刻な限界を示すことが明らかになった。さらに、当データによる教師ありファインチューニング(SFT)により、細粒度な行動を記述するようにMLLMを指導することが、既存のエンボディードベンチマークでの性能向上に直接寄与することを実証した。本分析はこれらの限界を明らかにし、より高能力で接地されたエンボディードエージェントの開発に向けた示唆を提供する。
English
Multimodal Large Language Models (MLLMs) show promising results as decision-making engines for embodied agents operating in complex, physical environments. However, existing benchmarks often prioritize high-level planning or spatial reasoning, leaving the fine-grained action intelligence required for embodied physical interaction underexplored. To address this gap, we introduce CFG-Bench, a new benchmark designed to systematically evaluate this crucial capability. CFG-Bench consists of 1,368 curated videos paired with 19,562 three-modalities question-answer pairs targeting four cognitive abilities: 1) Physical Interaction, 2) Temporal-Causal Relation, 3) Intentional Understanding, and 4) Evaluative Judgment. Together, these dimensions provide a systematic framework for assessing a model's ability to translate visual observations into actionable knowledge, moving beyond mere surface-level recognition. Our comprehensive evaluation on CFG-Bench reveals that leading MLLMs struggle to produce detailed instructions for physical interactions and exhibit profound limitations in the higher-order reasoning of intention and evaluation. Moreover, supervised fine-tuning (SFT) on our data demonstrates that teaching an MLLMs to articulate fine-grained actions directly translates to significant performance gains on established embodied benchmarks. Our analysis highlights these limitations and offers insights for developing more capable and grounded embodied agents.