Agentic-MME: O que a Capacidade Agente Realmente Traz à Inteligência Multimodal?

Resumo

Os Modelos de Linguagem Multimodais de Grande Porte (MLLMs) estão a evoluir de observadores passivos para agentes ativos, resolvendo problemas através da Expansão Visual (invocação de ferramentas visuais) e da Expansão de Conhecimento (pesquisa na web aberta). No entanto, as avaliações existentes são insuficientes: carecem de integração flexível de ferramentas, testam ferramentas visuais e de pesquisa separadamente e avaliam principalmente pelas respostas finais. Consequentemente, não conseguem verificar se as ferramentas foram realmente invocadas, aplicadas corretamente ou usadas de forma eficiente. Para resolver isto, introduzimos o *Agentic-MME*, um *benchmark* verificado por processo para Capacidades de Agência Multimodal. Este contém 418 tarefas do mundo real em 6 domínios e 3 níveis de dificuldade para avaliar a sinergia de capacidades, apresentando mais de 2.000 pontos de verificação passo a passo que totalizam uma média de mais de 10 horas de anotação manual por tarefa. Cada tarefa inclui uma estrutura de avaliação unificada que suporta código em *sandbox* e APIs, juntamente com uma trajetória de referência humana anotada com pontos de verificação passo a passo ao longo de um eixo duplo: Eixo-S e Eixo-V. Para permitir uma verificação autêntica ao nível do processo, auditamos estados intermédios de granularidade fina em vez de apenas respostas finais, e quantificamos a eficiência através de uma métrica de *overthinking* relativa às trajetórias humanas. Os resultados experimentais mostram que o melhor modelo, o Gemini3-pro, atinge uma precisão global de 56,3%, que cai significativamente para 23,0% em tarefas de Nível-3, sublinhando a dificuldade da resolução de problemas de agência multimodal no mundo real.

English

Multimodal Large Language Models (MLLMs) are evolving from passive observers into active agents, solving problems through Visual Expansion (invoking visual tools) and Knowledge Expansion (open-web search). However, existing evaluations fall short: they lack flexible tool integration, test visual and search tools separately, and evaluate primarily by final answers. Consequently, they cannot verify if tools were actually invoked, applied correctly, or used efficiently. To address this, we introduce Agentic-MME, a process-verified benchmark for Multimodal Agentic Capabilities. It contains 418 real-world tasks across 6 domains and 3 difficulty levels to evaluate capability synergy, featuring over 2,000 stepwise checkpoints that average 10+ person-hours of manual annotation per task. Each task includes a unified evaluation framework supporting sandboxed code and APIs, alongside a human reference trajectory annotated with stepwise checkpoints along dual-axis: S-axis and V-axis. To enable true process-level verification, we audit fine-grained intermediate states rather than just final answers, and quantify efficiency via an overthinking metric relative to human trajectories. Experimental results show the best model, Gemini3-pro, achieves 56.3% overall accuracy, which falls significantly to 23.0% on Level-3 tasks, underscoring the difficulty of real-world multimodal agentic problem solving.

Agentic-MME: O que a Capacidade Agente Realmente Traz à Inteligência Multimodal?

Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

Resumo

Support