Агентный MME: Что на самом деле привносят агентные возможности в мультимодальный интеллект?

Аннотация

Мультимодальные большие языковые модели (MLLM) эволюционируют от пассивных наблюдателей к активным агентам, решающим задачи посредством визуального расширения (вызов визуальных инструментов) и расширения знаний (поиск в открытой сети). Однако существующие системы оценки несовершенны: им не хватает гибкой интеграции инструментов, они тестируют визуальные и поисковые инструменты по отдельности и оценивают в основном по конечным ответам. Как следствие, они не могут проверить, были ли инструменты действительно вызваны, применены корректно или использованы эффективно. Чтобы решить эту проблему, мы представляем Agentic-MME — процессно-верифицированный бенчмарк для оценки агентских мультимодальных способностей. Он содержит 418 реальных задач из 6 областей и 3 уровней сложности для оценки синергии способностей и включает более 2000 пошаговых контрольных точек, требующих в среднем более 10 человеко-часов ручной разметки на задачу. Каждая задача включает унифицированную систему оценки, поддерживающую изолированное выполнение кода и API, а также эталонную траекторию решения человеком, аннотированную пошаговыми контрольными точками по двум осям: S-оси и V-оси. Для обеспечения подлинной верификации на уровне процесса мы проверяем детерминированные промежуточные состояния, а не только конечные ответы, и количественно оцениваем эффективность с помощью метрики избыточного анализа относительно человеческих траекторий. Результаты экспериментов показывают, что лучшая модель, Gemini3-pro, достигает общей точности 56,3%, которая значительно падает до 23,0% на задачах Уровня 3, что подчеркивает сложность решения реальных мультимодальных агентских задач.

English

Multimodal Large Language Models (MLLMs) are evolving from passive observers into active agents, solving problems through Visual Expansion (invoking visual tools) and Knowledge Expansion (open-web search). However, existing evaluations fall short: they lack flexible tool integration, test visual and search tools separately, and evaluate primarily by final answers. Consequently, they cannot verify if tools were actually invoked, applied correctly, or used efficiently. To address this, we introduce Agentic-MME, a process-verified benchmark for Multimodal Agentic Capabilities. It contains 418 real-world tasks across 6 domains and 3 difficulty levels to evaluate capability synergy, featuring over 2,000 stepwise checkpoints that average 10+ person-hours of manual annotation per task. Each task includes a unified evaluation framework supporting sandboxed code and APIs, alongside a human reference trajectory annotated with stepwise checkpoints along dual-axis: S-axis and V-axis. To enable true process-level verification, we audit fine-grained intermediate states rather than just final answers, and quantify efficiency via an overthinking metric relative to human trajectories. Experimental results show the best model, Gemini3-pro, achieves 56.3% overall accuracy, which falls significantly to 23.0% on Level-3 tasks, underscoring the difficulty of real-world multimodal agentic problem solving.

Агентный MME: Что на самом деле привносят агентные возможности в мультимодальный интеллект?

Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

Аннотация

Support