AgentVista: Avaliação de Agentes Multimodais em Cenários Visuais Realistas Ultradesafiadores

Resumo

Os agentes multimodais do mundo real resolvem fluxos de trabalho multi-etapa fundamentados em evidências visuais. Por exemplo, um agente pode diagnosticar problemas num dispositivo relacionando uma foto da fiação a um esquema e validar a correção com documentação online, ou planear uma viagem interpretando um mapa de transportes e verificando horários sob restrições de roteamento. No entanto, os benchmarks multimodais existentes avaliam principalmente o raciocínio visual de turno único ou competências específicas de ferramentas, e não capturam totalmente o realismo, a subtileza visual e o uso de ferramentas de longo horizonte que os agentes práticos exigem. Apresentamos o AgentVista, um benchmark para agentes multimodais generalistas que abrange 25 subdomínios em 7 categorias, emparelhando cenários visuais realistas e ricos em detalhes com o uso híbrido natural de ferramentas. As tarefas exigem interações de longo horizonte com ferramentas através de modalidades, incluindo pesquisa na web, pesquisa de imagens, navegação de páginas e operações baseadas em código para processamento de imagem e programação geral. A avaliação abrangente de modelos state-of-the-art expõe lacunas significativas na sua capacidade de realizar o uso multimodal de ferramentas de longo horizonte. Mesmo o melhor modelo na nossa avaliação, o Gemini-3-Pro com ferramentas, atinge apenas 27,3% de precisão global, e instâncias difíceis podem exigir mais de 25 turnos de chamada de ferramentas. Esperamos que o AgentVista acelere o desenvolvimento de agentes multimodais mais capazes e confiáveis para a resolução de problemas realistas e ultra-desafiadores.

English

Real-world multimodal agents solve multi-step workflows grounded in visual evidence. For example, an agent can troubleshoot a device by linking a wiring photo to a schematic and validating the fix with online documentation, or plan a trip by interpreting a transit map and checking schedules under routing constraints. However, existing multimodal benchmarks mainly evaluate single-turn visual reasoning or specific tool skills, and they do not fully capture the realism, visual subtlety, and long-horizon tool use that practical agents require. We introduce AgentVista, a benchmark for generalist multimodal agents that spans 25 sub-domains across 7 categories, pairing realistic and detail-rich visual scenarios with natural hybrid tool use. Tasks require long-horizon tool interactions across modalities, including web search, image search, page navigation, and code-based operations for both image processing and general programming. Comprehensive evaluation of state-of-the-art models exposes significant gaps in their ability to carry out long-horizon multimodal tool use. Even the best model in our evaluation, Gemini-3-Pro with tools, achieves only 27.3% overall accuracy, and hard instances can require more than 25 tool-calling turns. We expect AgentVista to accelerate the development of more capable and reliable multimodal agents for realistic and ultra-challenging problem solving.

AgentVista: Avaliação de Agentes Multimodais em Cenários Visuais Realistas Ultradesafiadores

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

Resumo

Support