Além da Descrição: Avaliação Cognitiva de Ações de Alta Granularidade para Agentes Corporificados

Resumo

Os Modelos de Linguagem de Grande Porte Multimodais (MLLMs) demonstram resultados promissores como motores de tomada de decisão para agentes incorporados que operam em ambientes físicos complexos. No entanto, os benchmarks existentes frequentemente priorizam o planeamento de alto nível ou o raciocínio espacial, deixando a inteligência de ação granular necessária para a interação física incorporada subexplorada. Para colmatar esta lacuna, introduzimos o CFG-Bench, um novo benchmark concebido para avaliar sistematicamente esta capacidade crucial. O CFG-Bench é composto por 1.368 vídeos selecionados, emparelhados com 19.562 pares pergunta-resposta de três modalidades, que visam quatro capacidades cognitivas: 1) Interação Física, 2) Relação Temporal-Causal, 3) Compreensão Intencional e 4) Julgamento Avaliativo. Em conjunto, estas dimensões fornecem uma estrutura sistemática para avaliar a capacidade de um modelo traduzir observações visuais em conhecimento acionável, indo além do mero reconhecimento superficial. A nossa avaliação abrangente no CFG-Bench revela que os principais MLLMs têm dificuldade em produzir instruções detalhadas para interações físicas e exibem limitações profundas no raciocínio de ordem superior sobre intenção e avaliação. Além disso, o ajuste fino supervisionado (SFT) com os nossos dados demonstra que ensinar um MLLM a articular ações granulares traduz-se diretamente em ganhos significativos de desempenho em benchmarks de incorporação estabelecidos. A nossa análise salienta estas limitações e oferece perspetivas para o desenvolvimento de agentes incorporados mais capazes e fundamentados.

English

Multimodal Large Language Models (MLLMs) show promising results as decision-making engines for embodied agents operating in complex, physical environments. However, existing benchmarks often prioritize high-level planning or spatial reasoning, leaving the fine-grained action intelligence required for embodied physical interaction underexplored. To address this gap, we introduce CFG-Bench, a new benchmark designed to systematically evaluate this crucial capability. CFG-Bench consists of 1,368 curated videos paired with 19,562 three-modalities question-answer pairs targeting four cognitive abilities: 1) Physical Interaction, 2) Temporal-Causal Relation, 3) Intentional Understanding, and 4) Evaluative Judgment. Together, these dimensions provide a systematic framework for assessing a model's ability to translate visual observations into actionable knowledge, moving beyond mere surface-level recognition. Our comprehensive evaluation on CFG-Bench reveals that leading MLLMs struggle to produce detailed instructions for physical interactions and exhibit profound limitations in the higher-order reasoning of intention and evaluation. Moreover, supervised fine-tuning (SFT) on our data demonstrates that teaching an MLLMs to articulate fine-grained actions directly translates to significant performance gains on established embodied benchmarks. Our analysis highlights these limitations and offers insights for developing more capable and grounded embodied agents.

Além da Descrição: Avaliação Cognitiva de Ações de Alta Granularidade para Agentes Corporificados

Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents

Resumo

Support