AgentVista: Avaliação de Agentes Multimodais em Cenários Visuais Realistas Ultradesafiadores
AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios
February 26, 2026
Autores: Zhaochen Su, Jincheng Gao, Hangyu Guo, Zhenhua Liu, Lueyang Zhang, Xinyu Geng, Shijue Huang, Peng Xia, Guanyu Jiang, Cheng Wang, Yue Zhang, Yi R. Fung, Junxian He
cs.AI
Resumo
Os agentes multimodais do mundo real resolvem fluxos de trabalho multi-etapa fundamentados em evidências visuais. Por exemplo, um agente pode diagnosticar problemas num dispositivo relacionando uma foto da fiação a um esquema e validar a correção com documentação online, ou planear uma viagem interpretando um mapa de transportes e verificando horários sob restrições de roteamento. No entanto, os benchmarks multimodais existentes avaliam principalmente o raciocínio visual de turno único ou competências específicas de ferramentas, e não capturam totalmente o realismo, a subtileza visual e o uso de ferramentas de longo horizonte que os agentes práticos exigem. Apresentamos o AgentVista, um benchmark para agentes multimodais generalistas que abrange 25 subdomínios em 7 categorias, emparelhando cenários visuais realistas e ricos em detalhes com o uso híbrido natural de ferramentas. As tarefas exigem interações de longo horizonte com ferramentas através de modalidades, incluindo pesquisa na web, pesquisa de imagens, navegação de páginas e operações baseadas em código para processamento de imagem e programação geral. A avaliação abrangente de modelos state-of-the-art expõe lacunas significativas na sua capacidade de realizar o uso multimodal de ferramentas de longo horizonte. Mesmo o melhor modelo na nossa avaliação, o Gemini-3-Pro com ferramentas, atinge apenas 27,3% de precisão global, e instâncias difíceis podem exigir mais de 25 turnos de chamada de ferramentas. Esperamos que o AgentVista acelere o desenvolvimento de agentes multimodais mais capazes e confiáveis para a resolução de problemas realistas e ultra-desafiadores.
English
Real-world multimodal agents solve multi-step workflows grounded in visual evidence. For example, an agent can troubleshoot a device by linking a wiring photo to a schematic and validating the fix with online documentation, or plan a trip by interpreting a transit map and checking schedules under routing constraints. However, existing multimodal benchmarks mainly evaluate single-turn visual reasoning or specific tool skills, and they do not fully capture the realism, visual subtlety, and long-horizon tool use that practical agents require. We introduce AgentVista, a benchmark for generalist multimodal agents that spans 25 sub-domains across 7 categories, pairing realistic and detail-rich visual scenarios with natural hybrid tool use. Tasks require long-horizon tool interactions across modalities, including web search, image search, page navigation, and code-based operations for both image processing and general programming. Comprehensive evaluation of state-of-the-art models exposes significant gaps in their ability to carry out long-horizon multimodal tool use. Even the best model in our evaluation, Gemini-3-Pro with tools, achieves only 27.3% overall accuracy, and hard instances can require more than 25 tool-calling turns. We expect AgentVista to accelerate the development of more capable and reliable multimodal agents for realistic and ultra-challenging problem solving.