AgentVista: Оценка мультимодальных агентов в сверхсложных реалистичных визуальных сценариях

Аннотация

Мультимодальные агенты в реальном мире решают многошаговые задачи, основанные на визуальных данных. Например, агент может диагностировать неисправность устройства, сопоставляя фотографию проводки со схемой и проверяя решение по онлайн-документации, или планировать поездку, интерпретируя карту маршрутов и сверяя расписание с учетом ограничений. Однако существующие мультимодальные бенчмарки в основном оценивают одношаговое визуальное мышление или конкретные навыки работы с инструментами, не отражая в полной мере реализм, визуальную сложность и длинные цепочки использования инструментов, необходимые практическим агентам. Мы представляем AgentVista — бенчмарк для универсальных мультимодальных агентов, охватывающий 25 поддоменов в 7 категориях, который сочетает реалистичные и детализированные визуальные сценарии с естественным гибридным использованием инструментов. Задачи требуют длинных цепочек взаимодействий с инструментами across модальностей, включая веб-поиск, поиск изображений, навигацию по страницам и операции на основе кода для обработки изображений и общего программирования. Всесторонняя оценка современных моделей выявляет значительные пробелы в их способности выполнять длинные мультимодальные цепочки с инструментами. Даже лучшая модель в нашем исследовании, Gemini-3-Pro с инструментами, достигает общей точности лишь 27.3%, а сложные случаи могут требовать более 25 вызовов инструментов. Мы ожидаем, что AgentVista ускорит разработку более способных и надежных мультимодальных агентов для решения реалистичных и сверхсложных задач.

English

Real-world multimodal agents solve multi-step workflows grounded in visual evidence. For example, an agent can troubleshoot a device by linking a wiring photo to a schematic and validating the fix with online documentation, or plan a trip by interpreting a transit map and checking schedules under routing constraints. However, existing multimodal benchmarks mainly evaluate single-turn visual reasoning or specific tool skills, and they do not fully capture the realism, visual subtlety, and long-horizon tool use that practical agents require. We introduce AgentVista, a benchmark for generalist multimodal agents that spans 25 sub-domains across 7 categories, pairing realistic and detail-rich visual scenarios with natural hybrid tool use. Tasks require long-horizon tool interactions across modalities, including web search, image search, page navigation, and code-based operations for both image processing and general programming. Comprehensive evaluation of state-of-the-art models exposes significant gaps in their ability to carry out long-horizon multimodal tool use. Even the best model in our evaluation, Gemini-3-Pro with tools, achieves only 27.3% overall accuracy, and hard instances can require more than 25 tool-calling turns. We expect AgentVista to accelerate the development of more capable and reliable multimodal agents for realistic and ultra-challenging problem solving.

AgentVista: Оценка мультимодальных агентов в сверхсложных реалистичных визуальных сценариях

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

Аннотация

Support