За пределами описания: когнитивное тестирование точных действий для воплощенных агентов
Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents
November 24, 2025
Авторы: Dayong Liu, Chao Xu, Weihong Chen, Suyu Zhang, Juncheng Wang, Jiankang Deng, Baigui Sun, Yang Liu
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLM) демонстрируют обнадеживающие результаты в качестве систем принятия решений для воплощенных агентов, действующих в сложных физических средах. Однако существующие бенчмарки часто делают акцент на высокоуровневом планировании или пространственных рассуждениях, оставляя недостаточно изученным тонкий интеллект действий, необходимый для физического взаимодействия. Чтобы восполнить этот пробел, мы представляем CFG-Bench — новый бенчмарк, разработанный для систематической оценки этой ключевой способности. CFG-Bench состоит из 1368 отобранных видеороликов, сопряженных с 19 562 парами «вопрос-ответ» по трем модальностям, нацеленным на четыре когнитивные способности: 1) Физическое взаимодействие, 2) Временные-причинные отношения, 3) Понимание намерений и 4) Оценочное суждение. В совокупности эти измерения предоставляют систематическую основу для оценки способности модели преобразовывать визуальные наблюдения в практические знания, выходя за рамки простого поверхностного распознавания. Наше всестороннее тестирование на CFG-Bench показывает, что ведущие MLLM испытывают трудности с генерацией детальных инструкций для физического взаимодействия и демонстрируют серьезные ограничения в сложных рассуждениях о намерениях и оценках. Более того, контролируемое тонкое обучение (SFT) на наших данных демонстрирует, что обучение MLLM формулировать тонкие действия напрямую приводит к значительному росту производительности на устоявшихся бенчмарках для воплощенных агентов. Наш анализ выявляет эти ограничения и предлагает идеи для разработки более способных и обоснованных воплощенных агентов.
English
Multimodal Large Language Models (MLLMs) show promising results as decision-making engines for embodied agents operating in complex, physical environments. However, existing benchmarks often prioritize high-level planning or spatial reasoning, leaving the fine-grained action intelligence required for embodied physical interaction underexplored. To address this gap, we introduce CFG-Bench, a new benchmark designed to systematically evaluate this crucial capability. CFG-Bench consists of 1,368 curated videos paired with 19,562 three-modalities question-answer pairs targeting four cognitive abilities: 1) Physical Interaction, 2) Temporal-Causal Relation, 3) Intentional Understanding, and 4) Evaluative Judgment. Together, these dimensions provide a systematic framework for assessing a model's ability to translate visual observations into actionable knowledge, moving beyond mere surface-level recognition. Our comprehensive evaluation on CFG-Bench reveals that leading MLLMs struggle to produce detailed instructions for physical interactions and exhibit profound limitations in the higher-order reasoning of intention and evaluation. Moreover, supervised fine-tuning (SFT) on our data demonstrates that teaching an MLLMs to articulate fine-grained actions directly translates to significant performance gains on established embodied benchmarks. Our analysis highlights these limitations and offers insights for developing more capable and grounded embodied agents.