ChatPaper.aiChatPaper

AgentVista: Оценка мультимодальных агентов в сверхсложных реалистичных визуальных сценариях

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

February 26, 2026
Авторы: Zhaochen Su, Jincheng Gao, Hangyu Guo, Zhenhua Liu, Lueyang Zhang, Xinyu Geng, Shijue Huang, Peng Xia, Guanyu Jiang, Cheng Wang, Yue Zhang, Yi R. Fung, Junxian He
cs.AI

Аннотация

Мультимодальные агенты в реальном мире решают многошаговые задачи, основанные на визуальных данных. Например, агент может диагностировать неисправность устройства, сопоставляя фотографию проводки со схемой и проверяя решение по онлайн-документации, или планировать поездку, интерпретируя карту маршрутов и сверяя расписание с учетом ограничений. Однако существующие мультимодальные бенчмарки в основном оценивают одношаговое визуальное мышление или конкретные навыки работы с инструментами, не отражая в полной мере реализм, визуальную сложность и длинные цепочки использования инструментов, необходимые практическим агентам. Мы представляем AgentVista — бенчмарк для универсальных мультимодальных агентов, охватывающий 25 поддоменов в 7 категориях, который сочетает реалистичные и детализированные визуальные сценарии с естественным гибридным использованием инструментов. Задачи требуют длинных цепочек взаимодействий с инструментами across модальностей, включая веб-поиск, поиск изображений, навигацию по страницам и операции на основе кода для обработки изображений и общего программирования. Всесторонняя оценка современных моделей выявляет значительные пробелы в их способности выполнять длинные мультимодальные цепочки с инструментами. Даже лучшая модель в нашем исследовании, Gemini-3-Pro с инструментами, достигает общей точности лишь 27.3%, а сложные случаи могут требовать более 25 вызовов инструментов. Мы ожидаем, что AgentVista ускорит разработку более способных и надежных мультимодальных агентов для решения реалистичных и сверхсложных задач.
English
Real-world multimodal agents solve multi-step workflows grounded in visual evidence. For example, an agent can troubleshoot a device by linking a wiring photo to a schematic and validating the fix with online documentation, or plan a trip by interpreting a transit map and checking schedules under routing constraints. However, existing multimodal benchmarks mainly evaluate single-turn visual reasoning or specific tool skills, and they do not fully capture the realism, visual subtlety, and long-horizon tool use that practical agents require. We introduce AgentVista, a benchmark for generalist multimodal agents that spans 25 sub-domains across 7 categories, pairing realistic and detail-rich visual scenarios with natural hybrid tool use. Tasks require long-horizon tool interactions across modalities, including web search, image search, page navigation, and code-based operations for both image processing and general programming. Comprehensive evaluation of state-of-the-art models exposes significant gaps in their ability to carry out long-horizon multimodal tool use. Even the best model in our evaluation, Gemini-3-Pro with tools, achieves only 27.3% overall accuracy, and hard instances can require more than 25 tool-calling turns. We expect AgentVista to accelerate the development of more capable and reliable multimodal agents for realistic and ultra-challenging problem solving.
PDF342March 9, 2026