Agentic-MME : Que la capacité agentielle apporte-t-elle réellement à l'intelligence multimodale ?
Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?
April 3, 2026
Auteurs: Qianshan Wei, Yishan Yang, Siyi Wang, Jinglin Chen, Binyu Wang, Jiaming Wang, Shuang Chen, Zechen Li, Yang Shi, Yuqi Tang, Weining Wang, Yi Yu, Chaoyou Fu, Qi Li, Yi-Fan Zhang
cs.AI
Résumé
Les modèles de langage multimodaux (MLLM) évoluent d'observateurs passifs vers des agents actifs, résolvant des problèmes par l'Expansion Visuelle (invocation d'outils visuels) et l'Expansion des Connaissances (recherche sur le web ouvert). Cependant, les évaluations existantes sont insuffisantes : elles manquent d'intégration flexible des outils, testent les outils visuels et de recherche séparément, et évaluent principalement par les réponses finales. Par conséquent, elles ne peuvent pas vérifier si les outils ont été réellement invoqués, appliqués correctement ou utilisés efficacement. Pour remédier à cela, nous présentons Agentic-MME, un benchmark vérifié en processus pour les Capacités Agentiques Multimodales. Il contient 418 tâches du monde réel réparties sur 6 domaines et 3 niveaux de difficulté pour évaluer la synergie des capacités, comprenant plus de 2 000 points de contrôle étape par étape qui représentent en moyenne plus de 10 heures-personnes d'annotation manuelle par tâche. Chaque tâche inclut un cadre d'évaluation unifié prenant en charge l'exécution en bac à sable de code et d'API, ainsi qu'une trajectoire de référence humaine annotée avec des points de contrôle étape par étape selon un double axe : l'axe S et l'axe V. Pour permettre une vérification véritablement au niveau du processus, nous auditons les états intermédiaires fins plutôt que seulement les réponses finales, et quantifions l'efficacité via une métrique de sur-réflexion relative aux trajectoires humaines. Les résultats expérimentaux montrent que le meilleur modèle, Gemini3-pro, atteint une précision globale de 56,3 %, qui chute significativement à 23,0 % sur les tâches de Niveau 3, soulignant la difficulté de la résolution de problèmes agentiques multimodaux dans le monde réel.
English
Multimodal Large Language Models (MLLMs) are evolving from passive observers into active agents, solving problems through Visual Expansion (invoking visual tools) and Knowledge Expansion (open-web search). However, existing evaluations fall short: they lack flexible tool integration, test visual and search tools separately, and evaluate primarily by final answers. Consequently, they cannot verify if tools were actually invoked, applied correctly, or used efficiently. To address this, we introduce Agentic-MME, a process-verified benchmark for Multimodal Agentic Capabilities. It contains 418 real-world tasks across 6 domains and 3 difficulty levels to evaluate capability synergy, featuring over 2,000 stepwise checkpoints that average 10+ person-hours of manual annotation per task. Each task includes a unified evaluation framework supporting sandboxed code and APIs, alongside a human reference trajectory annotated with stepwise checkpoints along dual-axis: S-axis and V-axis. To enable true process-level verification, we audit fine-grained intermediate states rather than just final answers, and quantify efficiency via an overthinking metric relative to human trajectories. Experimental results show the best model, Gemini3-pro, achieves 56.3% overall accuracy, which falls significantly to 23.0% on Level-3 tasks, underscoring the difficulty of real-world multimodal agentic problem solving.