AgentVista: 超挑戦的で現実的な視覚シナリオにおけるマルチモーダルエージェントの評価
AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios
February 26, 2026
著者: Zhaochen Su, Jincheng Gao, Hangyu Guo, Zhenhua Liu, Lueyang Zhang, Xinyu Geng, Shijue Huang, Peng Xia, Guanyu Jiang, Cheng Wang, Yue Zhang, Yi R. Fung, Junxian He
cs.AI
要旨
現実世界のマルチモーダルエージェントは、視覚的証拠に基づいた多段階のワークフローを解決します。例えば、配線写真と回路図を関連付け、オンライン文書で修正を検証することでデバイスのトラブルシューティングを行うエージェントや、経路図を解釈しルーティング制約下でスケジュールを確認する旅行計画エージェントが挙げられます。しかし、既存のマルチモーダルベンチマークは主に単一ターンの視覚推論や特定のツールスキルを評価するもので、実用的なエージェントに必要な現実性、視覚的微妙さ、長期的なツール使用を十分に捉えていません。我々はAgentVistaを提案します。これは、7カテゴリ25サブドメインにわたる汎用マルチモーダルエージェントのベンチマークであり、現実的で詳細な視覚シナリオと自然なハイブリッドツール使用を組み合わせています。タスクには、ウェブ検索、画像検索、ページナビゲーション、画像処理と汎用プログラミングの両方におけるコードベースの操作など、モダリティを跨ぐ長期的なツール相互作用が要求されます。最先端モデルの包括的評価により、長期的マルチモーダルツール使用を実行する能力に重大な隔たりが明らかになりました。評価で最高であったGemini-3-Pro with toolsでさえ、全体精度は27.3%に留まり、難易度の高い事例では25回以上のツール呼び出しターンを要する場合があります。AgentVistaが、現実的かつ超高難度な問題解決のための、より高機能で信頼性の高いマルチモーダルエージェントの開発を加速することが期待されます。
English
Real-world multimodal agents solve multi-step workflows grounded in visual evidence. For example, an agent can troubleshoot a device by linking a wiring photo to a schematic and validating the fix with online documentation, or plan a trip by interpreting a transit map and checking schedules under routing constraints. However, existing multimodal benchmarks mainly evaluate single-turn visual reasoning or specific tool skills, and they do not fully capture the realism, visual subtlety, and long-horizon tool use that practical agents require. We introduce AgentVista, a benchmark for generalist multimodal agents that spans 25 sub-domains across 7 categories, pairing realistic and detail-rich visual scenarios with natural hybrid tool use. Tasks require long-horizon tool interactions across modalities, including web search, image search, page navigation, and code-based operations for both image processing and general programming. Comprehensive evaluation of state-of-the-art models exposes significant gaps in their ability to carry out long-horizon multimodal tool use. Even the best model in our evaluation, Gemini-3-Pro with tools, achieves only 27.3% overall accuracy, and hard instances can require more than 25 tool-calling turns. We expect AgentVista to accelerate the development of more capable and reliable multimodal agents for realistic and ultra-challenging problem solving.