AgentVista: Evaluatie van Multimodale Agents in Ultra-Uitdagende Realistische Visuele Scenario's
AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios
February 26, 2026
Auteurs: Zhaochen Su, Jincheng Gao, Hangyu Guo, Zhenhua Liu, Lueyang Zhang, Xinyu Geng, Shijue Huang, Peng Xia, Guanyu Jiang, Cheng Wang, Yue Zhang, Yi R. Fung, Junxian He
cs.AI
Samenvatting
Multimodale agenten in de praktijk lossen meerstaps werkstromen op die zijn gegrond in visueel bewijs. Zo kan een agent een apparaat diagnosticeren door een bedradingsfoto te koppelen aan een schema en de reparatie te valideren met online documentatie, of een reis plannen door een openbaarvervoerkaart te interpreteren en dienstregelingen te controleren binnen routebeperkingen. Bestaande multimodale benchmarks evalueren echter voornamelijk enkelvoudige visuele redeneertaken of specifieke vaardigheden in het gebruik van tools, en vangen niet volledig de realiteitsgetrouwheid, visuele subtiliteit en langetermijn toolgebruik die praktische agenten vereisen. Wij introduceren AgentVista, een benchmark voor generalistische multimodale agenten die 25 subdomeinen bestrijkt binnen 7 categorieën, waarbij realistische en detailrijke visuele scenario's worden gekoppeld aan natuurlijk hybride toolgebruik. Taken vereisen langetermijn toolinteracties over modaliteiten heen, waaronder zoeken op het web, beeldzoekopdrachten, paginanavigatie en code-gebaseerde operaties voor zowel beeldverwerking als algemeen programmeren. Een uitgebreide evaluatie van state-of-the-art modellen toont aanzienlijke tekortkomingen in hun vermogen om langetermijn multimodaal toolgebruik uit te voeren. Zelfs het beste model in onze evaluatie, Gemini-3-Pro met tools, behaalt slechts 27,3% algemene nauwkeurigheid, en complexe gevallen kunnen meer dan 25 toolaanroepen vereisen. Wij verwachten dat AgentVista de ontwikkeling zal versnellen van krachtigere en betrouwbaardere multimodale agenten voor realistische en ultiem uitdagende probleemoplossing.
English
Real-world multimodal agents solve multi-step workflows grounded in visual evidence. For example, an agent can troubleshoot a device by linking a wiring photo to a schematic and validating the fix with online documentation, or plan a trip by interpreting a transit map and checking schedules under routing constraints. However, existing multimodal benchmarks mainly evaluate single-turn visual reasoning or specific tool skills, and they do not fully capture the realism, visual subtlety, and long-horizon tool use that practical agents require. We introduce AgentVista, a benchmark for generalist multimodal agents that spans 25 sub-domains across 7 categories, pairing realistic and detail-rich visual scenarios with natural hybrid tool use. Tasks require long-horizon tool interactions across modalities, including web search, image search, page navigation, and code-based operations for both image processing and general programming. Comprehensive evaluation of state-of-the-art models exposes significant gaps in their ability to carry out long-horizon multimodal tool use. Even the best model in our evaluation, Gemini-3-Pro with tools, achieves only 27.3% overall accuracy, and hard instances can require more than 25 tool-calling turns. We expect AgentVista to accelerate the development of more capable and reliable multimodal agents for realistic and ultra-challenging problem solving.