ChatPaper.aiChatPaper

AgentVista: 초고난도 현실적 시각 시나리오에서의 멀티모달 에이전트 평가

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

February 26, 2026
저자: Zhaochen Su, Jincheng Gao, Hangyu Guo, Zhenhua Liu, Lueyang Zhang, Xinyu Geng, Shijue Huang, Peng Xia, Guanyu Jiang, Cheng Wang, Yue Zhang, Yi R. Fung, Junxian He
cs.AI

초록

실제 세계의 멀티모달 에이전트는 시각적 증거에 기반한 다단계 워크플로우를 해결합니다. 예를 들어, 에이전트는 배선 사진을 회로도와 연결하고 온라인 문서로 수정 사항을 검증하여 장치 문제를 해결하거나, 교통 지도를 해석하고 경로 제약 조건 하에서 시간표를 확인하여 여행을 계획할 수 있습니다. 그러나 기존 멀티모달 벤치마크는 주로 단일 턴 시각 추론이나 특정 도구 기술을 평가하며, 실용적인 에이전트에 필요한 현실성, 시각적 정교성, 장기적 도구 사용을 완전히 포착하지 못합니다. 우리는 현실적이고 디테일이 풍부한 시각적 시나리오와 자연스러운 하이브리드 도구 사용을 결합한, 7개 범주에 걸친 25개 하위 도메인을 아우르는 일반 목적 멀티모달 에이전트 벤치마크인 AgentVista를 소개합니다. 과제들은 웹 검색, 이미지 검색, 페이지 탐색, 그리고 이미지 처리와 일반 프로그래밍을 위한 코드 기반 작업을 포함하여 다양한 모달리티에 걸친 장기적 도구 상호작용을 요구합니다. 최첨단 모델에 대한 포괄적 평가는 그들이 장기적 멀티모달 도구 사용을 수행하는 능력에 상당한 격차가 있음을 드러냅니다. 우리 평가에서 가장 성능이 좋은 모델인 도구 사용 Gemini-3-Pro 조차도 전체 정확도가 27.3%에 불과하며, 어려운 인스턴스들은 25회 이상의 도구 호출 턴을 필요로 할 수 있습니다. 우리는 AgentVista가 현실적이고 매우 도전적인 문제 해결을 위한 더 능력 있고 신뢰할 수 있는 멀티모달 에이전트의 개발을 가속화할 것으로 기대합니다.
English
Real-world multimodal agents solve multi-step workflows grounded in visual evidence. For example, an agent can troubleshoot a device by linking a wiring photo to a schematic and validating the fix with online documentation, or plan a trip by interpreting a transit map and checking schedules under routing constraints. However, existing multimodal benchmarks mainly evaluate single-turn visual reasoning or specific tool skills, and they do not fully capture the realism, visual subtlety, and long-horizon tool use that practical agents require. We introduce AgentVista, a benchmark for generalist multimodal agents that spans 25 sub-domains across 7 categories, pairing realistic and detail-rich visual scenarios with natural hybrid tool use. Tasks require long-horizon tool interactions across modalities, including web search, image search, page navigation, and code-based operations for both image processing and general programming. Comprehensive evaluation of state-of-the-art models exposes significant gaps in their ability to carry out long-horizon multimodal tool use. Even the best model in our evaluation, Gemini-3-Pro with tools, achieves only 27.3% overall accuracy, and hard instances can require more than 25 tool-calling turns. We expect AgentVista to accelerate the development of more capable and reliable multimodal agents for realistic and ultra-challenging problem solving.
PDF342March 9, 2026