AgentVista: Valutazione di Agenti Multimodali in Scenari Visivi Ultra-Impegnativi e Realistici

Abstract

Gli agenti multimodali nel mondo reale risolvono flussi di lavoro multi-step basati su evidenze visive. Ad esempio, un agente può diagnosticare un dispositivo collegando una foto del cablaggio a uno schema e validando la riparazione con la documentazione online, oppure pianificare un viaggio interpretando una mappa dei trasporti e verificando gli orari sotto vincoli di routing. Tuttavia, i benchmark multimodali esistenti valutano principalmente ragionamenti visivi a turno singolo o competenze strumentali specifiche, senza catturare appieno il realismo, la sottigliezza visiva e l'uso di strumenti a lungo termine richiesti dagli agenti pratici. Introduciamo AgentVista, un benchmark per agenti multimodali generalisti che copre 25 sotto-domini in 7 categorie, abbinando scenari visivi realistici e ricchi di dettagli a un uso ibrido e naturale degli strumenti. I compiti richiedono interazioni strumentali a lungo termine attraverso diverse modalità, inclusa ricerca web, ricerca per immagini, navigazione tra pagine e operazioni basate su codice sia per l'elaborazione di immagini che per la programmazione generale. La valutazione completa dei modelli più avanzati rivela lacune significative nella loro capacità di portare a termine un uso multimodale di strumenti a lungo termine. Anche il modello migliore nella nostra valutazione, Gemini-3-Pro con strumenti, raggiunge solo il 27,3% di accuratezza complessiva, e le istanze più difficili possono richiedere più di 25 turni di chiamata di strumenti. Ci aspettiamo che AgentVista acceleri lo sviluppo di agenti multimodali più capaci e affidabili per la risoluzione di problemi realistici e ultra-impegnativi.

English

Real-world multimodal agents solve multi-step workflows grounded in visual evidence. For example, an agent can troubleshoot a device by linking a wiring photo to a schematic and validating the fix with online documentation, or plan a trip by interpreting a transit map and checking schedules under routing constraints. However, existing multimodal benchmarks mainly evaluate single-turn visual reasoning or specific tool skills, and they do not fully capture the realism, visual subtlety, and long-horizon tool use that practical agents require. We introduce AgentVista, a benchmark for generalist multimodal agents that spans 25 sub-domains across 7 categories, pairing realistic and detail-rich visual scenarios with natural hybrid tool use. Tasks require long-horizon tool interactions across modalities, including web search, image search, page navigation, and code-based operations for both image processing and general programming. Comprehensive evaluation of state-of-the-art models exposes significant gaps in their ability to carry out long-horizon multimodal tool use. Even the best model in our evaluation, Gemini-3-Pro with tools, achieves only 27.3% overall accuracy, and hard instances can require more than 25 tool-calling turns. We expect AgentVista to accelerate the development of more capable and reliable multimodal agents for realistic and ultra-challenging problem solving.

AgentVista: Valutazione di Agenti Multimodali in Scenari Visivi Ultra-Impegnativi e Realistici

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

Abstract

Support