ChatPaper.aiChatPaper

AgentVista: Valutazione di Agenti Multimodali in Scenari Visivi Ultra-Impegnativi e Realistici

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

February 26, 2026
Autori: Zhaochen Su, Jincheng Gao, Hangyu Guo, Zhenhua Liu, Lueyang Zhang, Xinyu Geng, Shijue Huang, Peng Xia, Guanyu Jiang, Cheng Wang, Yue Zhang, Yi R. Fung, Junxian He
cs.AI

Abstract

Gli agenti multimodali nel mondo reale risolvono flussi di lavoro multi-step basati su evidenze visive. Ad esempio, un agente può diagnosticare un dispositivo collegando una foto del cablaggio a uno schema e validando la riparazione con la documentazione online, oppure pianificare un viaggio interpretando una mappa dei trasporti e verificando gli orari sotto vincoli di routing. Tuttavia, i benchmark multimodali esistenti valutano principalmente ragionamenti visivi a turno singolo o competenze strumentali specifiche, senza catturare appieno il realismo, la sottigliezza visiva e l'uso di strumenti a lungo termine richiesti dagli agenti pratici. Introduciamo AgentVista, un benchmark per agenti multimodali generalisti che copre 25 sotto-domini in 7 categorie, abbinando scenari visivi realistici e ricchi di dettagli a un uso ibrido e naturale degli strumenti. I compiti richiedono interazioni strumentali a lungo termine attraverso diverse modalità, inclusa ricerca web, ricerca per immagini, navigazione tra pagine e operazioni basate su codice sia per l'elaborazione di immagini che per la programmazione generale. La valutazione completa dei modelli più avanzati rivela lacune significative nella loro capacità di portare a termine un uso multimodale di strumenti a lungo termine. Anche il modello migliore nella nostra valutazione, Gemini-3-Pro con strumenti, raggiunge solo il 27,3% di accuratezza complessiva, e le istanze più difficili possono richiedere più di 25 turni di chiamata di strumenti. Ci aspettiamo che AgentVista acceleri lo sviluppo di agenti multimodali più capaci e affidabili per la risoluzione di problemi realistici e ultra-impegnativi.
English
Real-world multimodal agents solve multi-step workflows grounded in visual evidence. For example, an agent can troubleshoot a device by linking a wiring photo to a schematic and validating the fix with online documentation, or plan a trip by interpreting a transit map and checking schedules under routing constraints. However, existing multimodal benchmarks mainly evaluate single-turn visual reasoning or specific tool skills, and they do not fully capture the realism, visual subtlety, and long-horizon tool use that practical agents require. We introduce AgentVista, a benchmark for generalist multimodal agents that spans 25 sub-domains across 7 categories, pairing realistic and detail-rich visual scenarios with natural hybrid tool use. Tasks require long-horizon tool interactions across modalities, including web search, image search, page navigation, and code-based operations for both image processing and general programming. Comprehensive evaluation of state-of-the-art models exposes significant gaps in their ability to carry out long-horizon multimodal tool use. Even the best model in our evaluation, Gemini-3-Pro with tools, achieves only 27.3% overall accuracy, and hard instances can require more than 25 tool-calling turns. We expect AgentVista to accelerate the development of more capable and reliable multimodal agents for realistic and ultra-challenging problem solving.
PDF442March 26, 2026