Más Allá de la Descripción: Evaluación Cognitiva de la Acción de Grano Fino para Agentes Corporizados
Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents
November 24, 2025
Autores: Dayong Liu, Chao Xu, Weihong Chen, Suyu Zhang, Juncheng Wang, Jiankang Deng, Baigui Sun, Yang Liu
cs.AI
Resumen
Los Modelos de Lenguaje Grandes Multimodales (MLLMs) muestran resultados prometedores como motores de toma de decisiones para agentes corporizados que operan en entornos físicos complejos. Sin embargo, los puntos de referencia existentes a menudo priorizan la planificación de alto nivel o el razonamiento espacial, dejando poco explorada la inteligencia de acción granular requerida para la interacción física corporizada. Para abordar esta brecha, presentamos CFG-Bench, un nuevo punto de referencia diseñado para evaluar sistemáticamente esta capacidad crucial. CFG-Bench consiste en 1.368 videos seleccionados emparejados con 19.562 pares de preguntas y respuestas de tres modalidades dirigidas a cuatro habilidades cognitivas: 1) Interacción Física, 2) Relación Temporal-Causal, 3) Comprensión Intencional y 4) Juicio Evaluativo. En conjunto, estas dimensiones proporcionan un marco sistemático para evaluar la capacidad de un modelo para traducir observaciones visuales en conocimiento accionable, yendo más allá del mero reconocimiento superficial. Nuestra evaluación exhaustiva en CFG-Bench revela que los MLLMs líderes tienen dificultades para producir instrucciones detalladas para interacciones físicas y exhiben limitaciones profundas en el razonamiento de orden superior sobre intención y evaluación. Además, el ajuste fino supervisado (SFT) con nuestros datos demuestra que enseñar a un MLLM a articular acciones granulares se traduce directamente en ganancias significativas de rendimiento en puntos de referencia establecidos para agentes corporizados. Nuestro análisis subraya estas limitaciones y ofrece perspectivas para desarrollar agentes corporizados más capaces y fundamentados.
English
Multimodal Large Language Models (MLLMs) show promising results as decision-making engines for embodied agents operating in complex, physical environments. However, existing benchmarks often prioritize high-level planning or spatial reasoning, leaving the fine-grained action intelligence required for embodied physical interaction underexplored. To address this gap, we introduce CFG-Bench, a new benchmark designed to systematically evaluate this crucial capability. CFG-Bench consists of 1,368 curated videos paired with 19,562 three-modalities question-answer pairs targeting four cognitive abilities: 1) Physical Interaction, 2) Temporal-Causal Relation, 3) Intentional Understanding, and 4) Evaluative Judgment. Together, these dimensions provide a systematic framework for assessing a model's ability to translate visual observations into actionable knowledge, moving beyond mere surface-level recognition. Our comprehensive evaluation on CFG-Bench reveals that leading MLLMs struggle to produce detailed instructions for physical interactions and exhibit profound limitations in the higher-order reasoning of intention and evaluation. Moreover, supervised fine-tuning (SFT) on our data demonstrates that teaching an MLLMs to articulate fine-grained actions directly translates to significant performance gains on established embodied benchmarks. Our analysis highlights these limitations and offers insights for developing more capable and grounded embodied agents.