ChatPaper.aiChatPaper

ToolScope: 視覚誘導型・長期的ツール利用のためのエージェントフレームワーク

ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use

October 31, 2025
著者: Mengjie Deng, Guanting Dong, Zhicheng Dou
cs.AI

要旨

近年、大規模言語モデル(LLM)は外部ツールと自律的に連携し、協調的推論を行うことで顕著な問題解決能力を示している。しかし、マルチモーダル情報の本質的に複雑で多様な性質により、マルチモーダル大規模言語モデル(MLLM)が推論過程で外部ツールを柔軟かつ効率的に利用できるようにすることは、未開拓の課題として残されている。本論文では、長期的視覚質問応答タスクにおける視覚文脈の劣化を軽減するために特化した知覚ツールを採用し、大域的な計画と局所的なマルチモーダル知覚を統合するエージェントフレームワーク「ToolScope」を提案する。ToolScopeは主に、大域ナビゲータ、エージェント実行器、応答統合器の3つのコンポーネントで構成される。大域ナビゲータは「望遠鏡」として機能し、高レベルの戦略的指針を提供する。エージェント実行器は反復的に動作し、検索、コード、知覚という外部ツールを統合してMLLMの局所知覚を拡張する。最後に、応答統合器が推論過程を統合し、首尾一貫したユーザーフレンドリーな出力へと整理する。我々はToolScopeを、VQA 2.0、ScienceQA、MAT-Search、MathVistaを含む多様な領域にわたる4つのVQAベンチマークで評価した。その結果、全てのデータセットで平均最大+6.69%の性能向上を達成し、優れた汎化能力を示した。
English
Recently, large language models (LLMs) have demonstrated remarkable problem-solving capabilities by autonomously integrating with external tools for collaborative reasoning. However, due to the inherently complex and diverse nature of multimodal information, enabling multimodal large language models (MLLMs) to flexibly and efficiently utilize external tools during reasoning remains an underexplored challenge. In this work, we introduce ToolScope, an agentic framework designed to unify global planning with local multimodal perception, adopting a specialized Perceive tool to mitigates visual context degradation in long-horizon VQA task. ToolScope comprises three primary components: the Global Navigator, the Agentic Executor, and the Response Synthesizer. The Global Navigator functions as a "telescope", offering high-level strategic guidance. The Agentic Executor operates iteratively to augment MLLM with local perception through the integration of external tools-Search, Code, and Perceive. Finally, the Response Synthesizer consolidates and organizes the reasoning process into a coherent, user-friendly output. We evaluate ToolScope on four VQA benchmarks across diverse domains, including VQA 2.0, ScienceQA, MAT-Search and MathVista. It demonstrates strong generalization capabilities, achieving an average performance improvement of up to +6.69% across all datasets.
PDF222January 19, 2026