AgentVista : Évaluation des agents multimodaux dans des scénarios visuels réalistes ultra-challengants
AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios
February 26, 2026
Auteurs: Zhaochen Su, Jincheng Gao, Hangyu Guo, Zhenhua Liu, Lueyang Zhang, Xinyu Geng, Shijue Huang, Peng Xia, Guanyu Jiang, Cheng Wang, Yue Zhang, Yi R. Fung, Junxian He
cs.AI
Résumé
Les agents multimodaux en conditions réelles résolvent des workflows multi-étapes fondés sur des preuves visuelles. Par exemple, un agent peut diagnostiquer un appareil en reliant une photo de câblage à un schéma et valider la réparation avec une documentation en ligne, ou planifier un voyage en interprétant un plan de transport et en vérifiant les horaires sous contraintes d'itinéraire. Cependant, les benchmarks multimodaux existants évaluent principalement le raisonnement visuel en un seul tour ou des compétences spécifiques d'utilisation d'outils, sans capturer pleinement le réalisme, la subtilité visuelle et l'utilisation d'outils à long horizon que requièrent les agents pratiques. Nous présentons AgentVista, un benchmark pour agents multimodaux généralistes couvrant 25 sous-domaines répartis en 7 catégories, associant des scénarios visuels réalistes et riches en détails à une utilisation hybride naturelle d'outils. Les tâches nécessitent des interactions prolongées avec des outils multimodaux, incluant la recherche web, la recherche d'images, la navigation de pages et des opérations basées sur le code pour le traitement d'images et la programmation générale. L'évaluation exhaustive des modèles les plus avancés révèle des lacunes importantes dans leur capacité à réaliser une utilisation multimodale d'outils sur le long terme. Même le meilleur modèle de notre évaluation, Gemini-3-Pro avec outils, n'atteint que 27,3 % de précision globale, et les instances difficiles peuvent nécessiter plus de 25 appels d'outils. Nous estimons qu'AgentVista accélérera le développement d'agents multimodaux plus compétents et fiables pour une résolution de problèmes réaliste et ultra-complexe.
English
Real-world multimodal agents solve multi-step workflows grounded in visual evidence. For example, an agent can troubleshoot a device by linking a wiring photo to a schematic and validating the fix with online documentation, or plan a trip by interpreting a transit map and checking schedules under routing constraints. However, existing multimodal benchmarks mainly evaluate single-turn visual reasoning or specific tool skills, and they do not fully capture the realism, visual subtlety, and long-horizon tool use that practical agents require. We introduce AgentVista, a benchmark for generalist multimodal agents that spans 25 sub-domains across 7 categories, pairing realistic and detail-rich visual scenarios with natural hybrid tool use. Tasks require long-horizon tool interactions across modalities, including web search, image search, page navigation, and code-based operations for both image processing and general programming. Comprehensive evaluation of state-of-the-art models exposes significant gaps in their ability to carry out long-horizon multimodal tool use. Even the best model in our evaluation, Gemini-3-Pro with tools, achieves only 27.3% overall accuracy, and hard instances can require more than 25 tool-calling turns. We expect AgentVista to accelerate the development of more capable and reliable multimodal agents for realistic and ultra-challenging problem solving.