ChatPaper.aiChatPaper

Agentic-MME: 에이전트 능력이 다중모달 인텔리전스에 실질적으로 가져오는 것은 무엇인가?

Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

April 3, 2026
저자: Qianshan Wei, Yishan Yang, Siyi Wang, Jinglin Chen, Binyu Wang, Jiaming Wang, Shuang Chen, Zechen Li, Yang Shi, Yuqi Tang, Weining Wang, Yi Yu, Chaoyou Fu, Qi Li, Yi-Fan Zhang
cs.AI

초록

다중모달 대규모 언어 모델(MLLMs)은 수동적인 관찰자에서 능동적 에이전트로 진화하며, 시각적 확장(시각적 도구 호출) 및 지식 확장(오픈 웹 검색)을 통해 문제를 해결하고 있습니다. 그러나 기존 평가 방식은 한계가 있습니다: 유연한 도구 통합이 부족하고, 시각 및 검색 도구를 별도로 테스트하며, 주로 최종 답변만으로 평가합니다. 그 결과 도구가 실제로 호출되었는지, 올바르게 적용되었는지, 효율적으로 사용되었는지 검증할 수 없습니다. 이를 해결하기 위해 우리는 다중모달 에이전트 능력을 위한 과정 검증 벤치마크인 Agentic-MME를 소개합니다. 여기에는 6개 도메인과 3개 난이도에 걸친 418개의 실제 과제가 포함되어 능력 시너지를 평가하며, 과제당 평균 10시간 이상의 수동 주석 작업을 거친 2,000개 이상의 단계별 검증점을 특징으로 합니다. 각 과제는 샌드박스 코드 및 API를 지원하는 통합 평가 프레임워크와 함께, S축과 V축의 이중 축을 따라 단계별 검증점이 주석 처리된 인간 참조 궤적을 포함합니다. 진정한 과정 수준 검증을 위해 우리는 최종 답변뿐만 아니라 세분화된 중간 상태를 감사하고, 인간 궤적 대비 과사고 지표를 통해 효율성을 정량화합니다. 실험 결과에 따르면 최고 성능 모델인 Gemini3-pro는 전체 정확도 56.3%를 달성했으나, Level-3 과제에서는 23.0%로 크게 하락하여 실제 다중모달 에이전트 문제 해결의 어려움을 보여줍니다.
English
Multimodal Large Language Models (MLLMs) are evolving from passive observers into active agents, solving problems through Visual Expansion (invoking visual tools) and Knowledge Expansion (open-web search). However, existing evaluations fall short: they lack flexible tool integration, test visual and search tools separately, and evaluate primarily by final answers. Consequently, they cannot verify if tools were actually invoked, applied correctly, or used efficiently. To address this, we introduce Agentic-MME, a process-verified benchmark for Multimodal Agentic Capabilities. It contains 418 real-world tasks across 6 domains and 3 difficulty levels to evaluate capability synergy, featuring over 2,000 stepwise checkpoints that average 10+ person-hours of manual annotation per task. Each task includes a unified evaluation framework supporting sandboxed code and APIs, alongside a human reference trajectory annotated with stepwise checkpoints along dual-axis: S-axis and V-axis. To enable true process-level verification, we audit fine-grained intermediate states rather than just final answers, and quantify efficiency via an overthinking metric relative to human trajectories. Experimental results show the best model, Gemini3-pro, achieves 56.3% overall accuracy, which falls significantly to 23.0% on Level-3 tasks, underscoring the difficulty of real-world multimodal agentic problem solving.
PDF211April 7, 2026