Agentic-MME: Was agentische Fähigkeiten tatsächlich zur multimodalen Intelligenz beitragen
Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?
April 3, 2026
Autoren: Qianshan Wei, Yishan Yang, Siyi Wang, Jinglin Chen, Binyu Wang, Jiaming Wang, Shuang Chen, Zechen Li, Yang Shi, Yuqi Tang, Weining Wang, Yi Yu, Chaoyou Fu, Qi Li, Yi-Fan Zhang
cs.AI
Zusammenfassung
Multimodale Large Language Models (MLLMs) entwickeln sich von passiven Beobachtern zu aktiven Agenten, die Probleme durch Visuelle Erweiterung (Aufruf visueller Werkzeuge) und Wissenserweiterung (Open-Web-Suche) lösen. Bisherige Evaluierungen sind jedoch unzureichend: Es mangelt an flexibler Werkzeugintegration, visuelle und Suchwerkzeuge werden separat getestet und die Bewertung erfolgt primär anhand der Endantworten. Folglich können sie nicht überprüfen, ob Werkzeuge tatsächlich aufgerufen, korrekt angewendet oder effizient genutzt wurden. Um dies zu beheben, führen wir Agentic-MME ein, einen prozessverifizierten Benchmark für multimodale agentische Fähigkeiten. Er umfasst 418 realweltliche Aufgaben aus 6 Domänen und 3 Schwierigkeitsgraden zur Bewertung von Fähigkeitssynergien und verfügt über mehr als 2.000 schrittweise Checkpoints, die durchschnittlich über 10 Personen-Stunden manueller Annotation pro Aufgabe erfordern. Jede Aufgabe enthält ein einheitliches Evaluierungsframework, das sandboxed Code und APIs unterstützt, sowie eine menschliche Referenztrajektorie, die mit schrittweisen Checkpoints entlang einer Doppelachse annotiert ist: S-Achse und V-Achse. Um eine echte Prozessverifikation zu ermöglichen, prüfen wir feinkörnige Zwischenzustände anstatt nur Endantworten und quantifizieren die Effizienz mittels einer Overthinking-Metrik relativ zu menschlichen Trajektorien. Experimentelle Ergebnisse zeigen, dass das beste Modell, Gemini3-pro, eine Gesamtgenauigkeit von 56,3 % erreicht, die auf Level-3-Aufgaben signifikant auf 23,0 % abfällt – was die Schwierigkeit realweltlicher multimodaler agentischer Problemlösung unterstreicht.
English
Multimodal Large Language Models (MLLMs) are evolving from passive observers into active agents, solving problems through Visual Expansion (invoking visual tools) and Knowledge Expansion (open-web search). However, existing evaluations fall short: they lack flexible tool integration, test visual and search tools separately, and evaluate primarily by final answers. Consequently, they cannot verify if tools were actually invoked, applied correctly, or used efficiently. To address this, we introduce Agentic-MME, a process-verified benchmark for Multimodal Agentic Capabilities. It contains 418 real-world tasks across 6 domains and 3 difficulty levels to evaluate capability synergy, featuring over 2,000 stepwise checkpoints that average 10+ person-hours of manual annotation per task. Each task includes a unified evaluation framework supporting sandboxed code and APIs, alongside a human reference trajectory annotated with stepwise checkpoints along dual-axis: S-axis and V-axis. To enable true process-level verification, we audit fine-grained intermediate states rather than just final answers, and quantify efficiency via an overthinking metric relative to human trajectories. Experimental results show the best model, Gemini3-pro, achieves 56.3% overall accuracy, which falls significantly to 23.0% on Level-3 tasks, underscoring the difficulty of real-world multimodal agentic problem solving.