Agentic-MME: Cosa Porta Veramente la Capacità Agente all'Intelligenza Multimodale?

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLM) si stanno evolvendo da osservatori passivi ad agenti attivi, risolvendo problemi attraverso l'Espansione Visiva (invocazione di strumenti visivi) e l'Espansione della Conoscenza (ricerca sul web aperto). Tuttavia, le valutazioni esistenti sono carenti: mancano di un'integrazione flessibile degli strumenti, testano separatamente gli strumenti visivi e di ricerca e valutano principalmente in base alle risposte finali. Di conseguenza, non possono verificare se gli strumenti siano stati effettivamente invocati, applicati correttamente o utilizzati in modo efficiente. Per affrontare questo problema, introduciamo Agentic-MME, un benchmark verificato a livello di processo per le Capacità Agenti-che Multimodali. Esso contiene 418 compiti del mondo reale suddivisi in 6 domini e 3 livelli di difficoltà per valutare la sinergia delle capacità, caratterizzato da oltre 2.000 checkpoint graduali che richiedono in media oltre 10 ore-persona di annotazione manuale per compito. Ogni compito include un framework di valutazione unificato che supporta codice in sandbox e API, insieme a una traiettoria di riferimento umana annotata con checkpoint graduali lungo un doppio asse: Asse-S e Asse-V. Per abilitare una vera verifica a livello di processo, controlliamo stati intermedi granulari piuttosto che solo le risposte finali, e quantifichiamo l'efficienza attraverso una metrica di *overthinking* relativa alle traiettorie umane. I risultati sperimentali mostrano che il modello migliore, Gemini3-pro, raggiunge un'accuratezza complessiva del 56,3%, che scende significativamente al 23,0% sui compiti di Livello-3, sottolineando la difficoltà della risoluzione agentica multimodale di problemi nel mondo reale.

English

Multimodal Large Language Models (MLLMs) are evolving from passive observers into active agents, solving problems through Visual Expansion (invoking visual tools) and Knowledge Expansion (open-web search). However, existing evaluations fall short: they lack flexible tool integration, test visual and search tools separately, and evaluate primarily by final answers. Consequently, they cannot verify if tools were actually invoked, applied correctly, or used efficiently. To address this, we introduce Agentic-MME, a process-verified benchmark for Multimodal Agentic Capabilities. It contains 418 real-world tasks across 6 domains and 3 difficulty levels to evaluate capability synergy, featuring over 2,000 stepwise checkpoints that average 10+ person-hours of manual annotation per task. Each task includes a unified evaluation framework supporting sandboxed code and APIs, alongside a human reference trajectory annotated with stepwise checkpoints along dual-axis: S-axis and V-axis. To enable true process-level verification, we audit fine-grained intermediate states rather than just final answers, and quantify efficiency via an overthinking metric relative to human trajectories. Experimental results show the best model, Gemini3-pro, achieves 56.3% overall accuracy, which falls significantly to 23.0% on Level-3 tasks, underscoring the difficulty of real-world multimodal agentic problem solving.

Agentic-MME: Cosa Porta Veramente la Capacità Agente all'Intelligenza Multimodale?

Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

Abstract

Support