Oltre la Descrizione: Valutazione Cognitiva delle Azioni di Dettaglio per Agenti Embodied

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLM) mostrano risultati promettenti come motori decisionali per agenti embodied che operano in ambienti fisici complessi. Tuttavia, i benchmark esistenti privilegiano spesso la pianificazione di alto livello o il ragionamento spaziale, lasciando inesplorata l'intelligenza delle azioni granulari necessaria per l'interazione fisica embodied. Per colmare questa lacuna, introduciamo CFG-Bench, un nuovo benchmark progettato per valutare sistematicamente questa capacità cruciale. CFG-Bench è composto da 1.368 video selezionati, accoppiati a 19.562 coppie domanda-risposta a tre modalità, che mirano a quattro abilità cognitive: 1) Interazione Fisica, 2) Relazione Temporale-Causale, 3) Comprensione Intenzionale e 4) Giudizio Valutativo. Insieme, queste dimensioni forniscono una struttura sistematica per valutare la capacità di un modello di tradurre le osservazioni visive in conoscenza azionabile, andando oltre il mero riconoscimento superficiale. La nostra valutazione completa su CFG-Bench rivela che i principali MLLM faticano a produrre istruzioni dettagliate per le interazioni fisiche ed esibiscono limitazioni profonde nel ragionamento di ordine superiore riguardante l'intenzione e la valutazione. Inoltre, l'addestramento supervisionato (SFT) sui nostri dati dimostra che insegnare a un MLLM ad articolare azioni granulari si traduce direttamente in significativi miglioramenti delle prestazioni su benchmark embodied consolidati. La nostra analisi evidenzia queste limitazioni e offre spunti per lo sviluppo di agenti embodied più capaci e fondati nella realtà.

English

Multimodal Large Language Models (MLLMs) show promising results as decision-making engines for embodied agents operating in complex, physical environments. However, existing benchmarks often prioritize high-level planning or spatial reasoning, leaving the fine-grained action intelligence required for embodied physical interaction underexplored. To address this gap, we introduce CFG-Bench, a new benchmark designed to systematically evaluate this crucial capability. CFG-Bench consists of 1,368 curated videos paired with 19,562 three-modalities question-answer pairs targeting four cognitive abilities: 1) Physical Interaction, 2) Temporal-Causal Relation, 3) Intentional Understanding, and 4) Evaluative Judgment. Together, these dimensions provide a systematic framework for assessing a model's ability to translate visual observations into actionable knowledge, moving beyond mere surface-level recognition. Our comprehensive evaluation on CFG-Bench reveals that leading MLLMs struggle to produce detailed instructions for physical interactions and exhibit profound limitations in the higher-order reasoning of intention and evaluation. Moreover, supervised fine-tuning (SFT) on our data demonstrates that teaching an MLLMs to articulate fine-grained actions directly translates to significant performance gains on established embodied benchmarks. Our analysis highlights these limitations and offers insights for developing more capable and grounded embodied agents.

Oltre la Descrizione: Valutazione Cognitiva delle Azioni di Dettaglio per Agenti Embodied

Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents

Abstract

Support