AgentVista: Bewertung multimodaler Agenten in ultra-herausfordernden realistischen visuellen Szenarien

Zusammenfassung

Multimodale Agenten in der Praxis lösen mehrstufige Arbeitsabläufe, die auf visuellen Beweisen basieren. Ein Agent kann beispielsweise ein Gerät reparieren, indem er ein Verkabelungsfoto mit einem Schaltplan verknüpft und die Reparatur mit Online-Dokumentation validiert, oder eine Reise planen, indem er einen Fahrplan interpretiert und Verbindungen unter Berücksichtigung von Routenbedingungen prüft. Bestehende multimodale Benchmarks bewerten jedoch hauptsächlich einstufiges visuelles Reasoning oder spezifische Werkzeugfähigkeiten und erfassen nicht vollständig den Realismus, die visuelle Detailtiefe und die langfristige Werkzeugnutzung, die praktische Agenten erfordern. Wir stellen AgentVista vor, einen Benchmark für generalistische multimodale Agenten, der 25 Teilbereiche aus 7 Kategorien umfasst und realistische, detailreiche visuelle Szenarien mit natürlicher hybrider Werkzeugnutzung kombiniert. Die Aufgaben erfordern langfristige Werkzeuginteraktionen über Modalitäten hinweg, einschließlich Websuche, Bildersuche, Seitennavigation und codebasierter Operationen sowohl für Bildverarbeitung als auch allgemeine Programmierung. Eine umfassende Evaluation modernster Modelle zeigt erhebliche Lücken in ihrer Fähigkeit zur langfristigen multimodalen Werkzeugnutzung auf. Selbst das beste Modell in unserer Evaluation, Gemini-3-Pro mit Werkzeugen, erreicht nur eine Gesamtgenauigkeit von 27,3 %, und schwierige Instanzen können mehr als 25 Werkzeugaufrufe erfordern. Wir erwarten, dass AgentVista die Entwicklung leistungsfähigerer und zuverlässigerer multimodaler Agenten für realistische und äußerst anspruchsvolle Problemlösungen beschleunigen wird.

English

Real-world multimodal agents solve multi-step workflows grounded in visual evidence. For example, an agent can troubleshoot a device by linking a wiring photo to a schematic and validating the fix with online documentation, or plan a trip by interpreting a transit map and checking schedules under routing constraints. However, existing multimodal benchmarks mainly evaluate single-turn visual reasoning or specific tool skills, and they do not fully capture the realism, visual subtlety, and long-horizon tool use that practical agents require. We introduce AgentVista, a benchmark for generalist multimodal agents that spans 25 sub-domains across 7 categories, pairing realistic and detail-rich visual scenarios with natural hybrid tool use. Tasks require long-horizon tool interactions across modalities, including web search, image search, page navigation, and code-based operations for both image processing and general programming. Comprehensive evaluation of state-of-the-art models exposes significant gaps in their ability to carry out long-horizon multimodal tool use. Even the best model in our evaluation, Gemini-3-Pro with tools, achieves only 27.3% overall accuracy, and hard instances can require more than 25 tool-calling turns. We expect AgentVista to accelerate the development of more capable and reliable multimodal agents for realistic and ultra-challenging problem solving.

AgentVista: Bewertung multimodaler Agenten in ultra-herausfordernden realistischen visuellen Szenarien

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

Zusammenfassung

Support