ChatPaper.aiChatPaper

초월적 묘사: 구체화된 에이전트를 위한 세분화된 행동 인지 벤치마킹

Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents

November 24, 2025
저자: Dayong Liu, Chao Xu, Weihong Chen, Suyu Zhang, Juncheng Wang, Jiankang Deng, Baigui Sun, Yang Liu
cs.AI

초록

멀티모달 대규모 언어 모델(MLLMs)은 복잡한 물리적 환경에서 작동하는 구체적 에이전트의 의사 결정 엔진으로서 유망한 결과를 보여주고 있습니다. 그러나 기존 벤치마크는 고수준 계획 수립이나 공간 추론을 우선시하는 경향이 있어, 구체적 물리적 상호작용에 필요한 세분화된 행동 인텔리전스는 충분히 탐구되지 않고 있습니다. 이러한 격차를 해소하기 위해 본 연구에서는 이 중요한 능력을 체계적으로 평가하기 위해 설계된 새로운 벤치마크인 CFG-Bench를 소개합니다. CFG-Bench는 1,368개의 선별된 동영상과 19,562개의 3가지 양식 질문-응답 쌍으로 구성되며, 네 가지 인지 능력인 1) 물리적 상호작용, 2) 시간-인과 관계, 3) 의도적 이해, 4) 평가적 판단을 평가합니다. 이러한 차원들은 함께 모델의 시각적 관찰을 실행 가능한 지식으로 전환하는 능력을 평가하는 체계적인 프레임워크를 제공하며, 단순한 표면적 인식을 넘어섭니다. CFG-Bench에 대한 포괄적 평가 결과, 주요 MLLM들이 물리적 상호작용에 대한 상세한 지시를 생성하는 데 어려움을 겪으며 의도와 평가라는 고차원적 추론에서 심각한 한계를 보이는 것으로 나타났습니다. 또한 본 데이터를 활용한 지도 미세 조정(SFT)을 통해 세분화된 행동을 명시하도록 MLLM을 가르치는 것이 기존 구체적 벤치마크에서의 성능 향상으로 직접적으로 이어짐을 입증했습니다. 본 분석은 이러한 한계를 부각하고, 더 능력 있고 현실에 기반한 구체적 에이전트 개발을 위한 통찰을 제공합니다.
English
Multimodal Large Language Models (MLLMs) show promising results as decision-making engines for embodied agents operating in complex, physical environments. However, existing benchmarks often prioritize high-level planning or spatial reasoning, leaving the fine-grained action intelligence required for embodied physical interaction underexplored. To address this gap, we introduce CFG-Bench, a new benchmark designed to systematically evaluate this crucial capability. CFG-Bench consists of 1,368 curated videos paired with 19,562 three-modalities question-answer pairs targeting four cognitive abilities: 1) Physical Interaction, 2) Temporal-Causal Relation, 3) Intentional Understanding, and 4) Evaluative Judgment. Together, these dimensions provide a systematic framework for assessing a model's ability to translate visual observations into actionable knowledge, moving beyond mere surface-level recognition. Our comprehensive evaluation on CFG-Bench reveals that leading MLLMs struggle to produce detailed instructions for physical interactions and exhibit profound limitations in the higher-order reasoning of intention and evaluation. Moreover, supervised fine-tuning (SFT) on our data demonstrates that teaching an MLLMs to articulate fine-grained actions directly translates to significant performance gains on established embodied benchmarks. Our analysis highlights these limitations and offers insights for developing more capable and grounded embodied agents.
PDF42January 23, 2026