Agentic-MME: ¿Qué Capacidad de Agencia Realmente Aporta a la Inteligencia Multimodal?

Resumen

Los Modelos de Lenguaje Grandes Multimodales (MLLMs) están evolucionando de observadores pasivos a agentes activos, resolviendo problemas mediante la Expansión Visual (invocación de herramientas visuales) y la Expansión de Conocimiento (búsqueda en la web abierta). Sin embargo, las evaluaciones existentes son insuficientes: carecen de integración flexible de herramientas, prueban las herramientas visuales y de búsqueda por separado y evalúan principalmente mediante las respuestas finales. En consecuencia, no pueden verificar si las herramientas fueron realmente invocadas, aplicadas correctamente o utilizadas de manera eficiente. Para abordar esto, presentamos Agentic-MME, un benchmark verificado por procesos para Capacidades Agénticas Multimodales. Contiene 418 tareas del mundo real en 6 dominios y 3 niveles de dificultad para evaluar la sinergia de capacidades, con más de 2.000 puntos de control paso a paso que promedian más de 10 horas-persona de anotación manual por tarea. Cada tarea incluye un marco de evaluación unificado que admite código en sandbox y APIs, junto con una trayectoria de referencia humana anotada con puntos de control paso a paso en un eje dual: eje-S y eje-V. Para permitir una verificación verdadera a nivel de proceso, auditamos estados intermedios de grano fino en lugar de solo las respuestas finales, y cuantificamos la eficiencia mediante una métrica de sobrepensamiento relativa a las trayectorias humanas. Los resultados experimentales muestran que el mejor modelo, Gemini3-pro, alcanza un 56.3% de precisión general, que desciende significativamente al 23.0% en las tareas de Nivel-3, subrayando la dificultad de la resolución agéntica multimodal de problemas del mundo real.

English

Multimodal Large Language Models (MLLMs) are evolving from passive observers into active agents, solving problems through Visual Expansion (invoking visual tools) and Knowledge Expansion (open-web search). However, existing evaluations fall short: they lack flexible tool integration, test visual and search tools separately, and evaluate primarily by final answers. Consequently, they cannot verify if tools were actually invoked, applied correctly, or used efficiently. To address this, we introduce Agentic-MME, a process-verified benchmark for Multimodal Agentic Capabilities. It contains 418 real-world tasks across 6 domains and 3 difficulty levels to evaluate capability synergy, featuring over 2,000 stepwise checkpoints that average 10+ person-hours of manual annotation per task. Each task includes a unified evaluation framework supporting sandboxed code and APIs, alongside a human reference trajectory annotated with stepwise checkpoints along dual-axis: S-axis and V-axis. To enable true process-level verification, we audit fine-grained intermediate states rather than just final answers, and quantify efficiency via an overthinking metric relative to human trajectories. Experimental results show the best model, Gemini3-pro, achieves 56.3% overall accuracy, which falls significantly to 23.0% on Level-3 tasks, underscoring the difficulty of real-world multimodal agentic problem solving.

Agentic-MME: ¿Qué Capacidad de Agencia Realmente Aporta a la Inteligencia Multimodal?

Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

Resumen

Support