ToolScope: 시각 기반 및 장기적 도구 사용을 위한 에이전트 프레임워크
ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use
October 31, 2025
저자: Mengjie Deng, Guanting Dong, Zhicheng Dou
cs.AI
초록
최근 대규모 언어 모델(LLM)은 외부 도구와의 자율적 통합을 통해 협력적 추론을 수행하며 뛰어난 문제 해결 능력을 입증했습니다. 그러나 다중 양식 정보의 본질적으로 복잡하고 다양한 특성으로 인해, 다중 양식 대규모 언어 모델(MLLM)이 추론 과정에서 외부 도구를 유연하고 효율적으로 활용하도록 만드는 것은 아직 충분히 탐구되지 않은 과제로 남아 있습니다. 본 연구에서는 장기간 시각 질의응답(VQA) 과제에서 시각적 문맥 저하를 완화하기 위해 전용 Perceive 도구를 도입하여 전역 계획과 지역적 다중 양식 인식을 통합하는 에이전트 프레임워크인 ToolScope를 소개합니다. ToolScope는 글로벌 네비게이터, 에이전트 실행기, 응답 통합기의 세 가지 주요 구성 요소로 이루어집니다. 글로벌 네비게이터는 "망원경" 역할을 하여 높은 수준의 전략적 지침을 제공합니다. 에이전트 실행기는 Search, Code, Perceive라는 외부 도구 통합을 통해 지역적 인식으로 MLLM의 능력을 반복적으로 증강합니다. 마지막으로 응답 통합기는 추론 과정을 통합하고 일관성 있으며 사용자 친화적인 출력으로 구성합니다. 우리는 VQA 2.0, ScienceQA, MAT-Search, MathVista를 포함한 다양한 분야의 4개 VQA 벤치마크에서 ToolScope를 평가했습니다. 이를 통해 모든 데이터셋에서 최대 +6.69%의 평균 성능 향상을 달성하며 강력한 일반화 능력을 입증했습니다.
English
Recently, large language models (LLMs) have demonstrated remarkable
problem-solving capabilities by autonomously integrating with external tools
for collaborative reasoning. However, due to the inherently complex and diverse
nature of multimodal information, enabling multimodal large language models
(MLLMs) to flexibly and efficiently utilize external tools during reasoning
remains an underexplored challenge. In this work, we introduce ToolScope, an
agentic framework designed to unify global planning with local multimodal
perception, adopting a specialized Perceive tool to mitigates visual context
degradation in long-horizon VQA task. ToolScope comprises three primary
components: the Global Navigator, the Agentic Executor, and the Response
Synthesizer. The Global Navigator functions as a "telescope", offering
high-level strategic guidance. The Agentic Executor operates iteratively to
augment MLLM with local perception through the integration of external
tools-Search, Code, and Perceive. Finally, the Response Synthesizer
consolidates and organizes the reasoning process into a coherent, user-friendly
output. We evaluate ToolScope on four VQA benchmarks across diverse domains,
including VQA 2.0, ScienceQA, MAT-Search and MathVista. It demonstrates strong
generalization capabilities, achieving an average performance improvement of up
to +6.69% across all datasets.