AgentVista: Evaluación de Agentes Multimodales en Escenarios Visuales Realistas Ultra-Desafiantes
AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios
February 26, 2026
Autores: Zhaochen Su, Jincheng Gao, Hangyu Guo, Zhenhua Liu, Lueyang Zhang, Xinyu Geng, Shijue Huang, Peng Xia, Guanyu Jiang, Cheng Wang, Yue Zhang, Yi R. Fung, Junxian He
cs.AI
Resumen
Los agentes multimodales del mundo real resuelven flujos de trabajo de múltiples pasos basados en evidencia visual. Por ejemplo, un agente puede diagnosticar un dispositivo vinculando una foto del cableado a un esquema y validar la solución con documentación en línea, o planificar un viaje interpretando un mapa de transporte y verificando horarios bajo restricciones de ruta. Sin embargo, los puntos de referencia multimodales existentes evalúan principalmente el razonamiento visual de un solo turno o habilidades específicas de herramientas, y no capturan completamente el realismo, la sutileza visual y el uso de herramientas a largo plazo que requieren los agentes prácticos. Presentamos AgentVista, un punto de referencia para agentes multimodales generalistas que abarca 25 subdominios en 7 categorías, combinando escenarios visuales realistas y ricos en detalles con un uso híbrido natural de herramientas. Las tareas requieren interacciones de herramientas a largo plazo a través de múltiples modalidades, incluyendo búsqueda web, búsqueda de imágenes, navegación de páginas y operaciones basadas en código para procesamiento de imágenes y programación general. La evaluación exhaustiva de modelos de última generación expone brechas significativas en su capacidad para llevar a cabo el uso multimodal de herramientas a largo plazo. Incluso el mejor modelo en nuestra evaluación, Gemini-3-Pro con herramientas, alcanza solo un 27.3% de precisión general, y los casos difíciles pueden requerir más de 25 turnos de llamadas a herramientas. Esperamos que AgentVista acelere el desarrollo de agentes multimodales más capaces y confiables para la resolución de problemas realistas y ultra desafiantes.
English
Real-world multimodal agents solve multi-step workflows grounded in visual evidence. For example, an agent can troubleshoot a device by linking a wiring photo to a schematic and validating the fix with online documentation, or plan a trip by interpreting a transit map and checking schedules under routing constraints. However, existing multimodal benchmarks mainly evaluate single-turn visual reasoning or specific tool skills, and they do not fully capture the realism, visual subtlety, and long-horizon tool use that practical agents require. We introduce AgentVista, a benchmark for generalist multimodal agents that spans 25 sub-domains across 7 categories, pairing realistic and detail-rich visual scenarios with natural hybrid tool use. Tasks require long-horizon tool interactions across modalities, including web search, image search, page navigation, and code-based operations for both image processing and general programming. Comprehensive evaluation of state-of-the-art models exposes significant gaps in their ability to carry out long-horizon multimodal tool use. Even the best model in our evaluation, Gemini-3-Pro with tools, achieves only 27.3% overall accuracy, and hard instances can require more than 25 tool-calling turns. We expect AgentVista to accelerate the development of more capable and reliable multimodal agents for realistic and ultra-challenging problem solving.