ToolScope: Een Agentisch Framework voor Visie-Gestuurd en Langetermijn Gebruik van Hulpmiddelen
ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use
October 31, 2025
Auteurs: Mengjie Deng, Guanting Dong, Zhicheng Dou
cs.AI
Samenvatting
Onlangs hebben grote taalmodellen (LLM's) opmerkelijke probleemoplossende vermogens getoond door zich autonoom te integreren met externe tools voor collaboratief redeneren. Vanwege de inherent complexe en diverse aard van multimodale informatie blijft het echter een onderbelichte uitdaging om multimodale grote taalmodellen (MLLM's) in staat te stellen externe tools flexibel en efficiënt te benutten tijdens het redeneren. In dit werk introduceren we ToolScope, een agent-gebaseerd raamwerk ontworpen om globale planning te verenigen met lokale multimodale perceptie, waarbij een gespecialiseerd Perceive-tool wordt ingezet om visuele contextdegradatie in langetermijn VQA-taken te mitigeren. ToolScope omvat drie primaire componenten: de Global Navigator, de Agentic Executor en de Response Synthesizer. De Global Navigator fungeert als een "telescoop" die hoogwaardige strategische richtlijnen biedt. De Agentic Executor opereert iteratief om de MLLM uit te breiden met lokale perceptie door de integratie van externe tools - Search, Code en Perceive. Ten slotte consolideert en organiseert de Response Synthesizer het redeneerproces tot een coherente, gebruiksvriendelijke output. We evalueren ToolScope op vier VQA-benchmarks in diverse domeinen, waaronder VQA 2.0, ScienceQA, MAT-Search en MathVista. Het framework toont sterke generalisatiecapaciteiten en behaalt een gemiddelde prestatieverbetering van tot +6,69% over alle datasets.
English
Recently, large language models (LLMs) have demonstrated remarkable
problem-solving capabilities by autonomously integrating with external tools
for collaborative reasoning. However, due to the inherently complex and diverse
nature of multimodal information, enabling multimodal large language models
(MLLMs) to flexibly and efficiently utilize external tools during reasoning
remains an underexplored challenge. In this work, we introduce ToolScope, an
agentic framework designed to unify global planning with local multimodal
perception, adopting a specialized Perceive tool to mitigates visual context
degradation in long-horizon VQA task. ToolScope comprises three primary
components: the Global Navigator, the Agentic Executor, and the Response
Synthesizer. The Global Navigator functions as a "telescope", offering
high-level strategic guidance. The Agentic Executor operates iteratively to
augment MLLM with local perception through the integration of external
tools-Search, Code, and Perceive. Finally, the Response Synthesizer
consolidates and organizes the reasoning process into a coherent, user-friendly
output. We evaluate ToolScope on four VQA benchmarks across diverse domains,
including VQA 2.0, ScienceQA, MAT-Search and MathVista. It demonstrates strong
generalization capabilities, achieving an average performance improvement of up
to +6.69% across all datasets.