ToolScope: Ein agentenbasiertes Framework für visuell gesteuerte und langfristige Werkzeugnutzung
ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use
October 31, 2025
papers.authors: Mengjie Deng, Guanting Dong, Zhicheng Dou
cs.AI
papers.abstract
Kürzlich haben große Sprachmodelle (LLMs) bemerkenswerte Problemlösungsfähigkeiten demonstriert, indem sie sich autonom mit externen Werkzeugen für kollaboratives Schließen integrierten. Aufgrund der inhärent komplexen und vielfältigen Natur multimodaler Informationen bleibt es jedoch eine wenig erforschte Herausforderung, multimodalen großen Sprachmodellen (MLLMs) zu ermöglichen, während des Schließens flexibel und effizient externe Werkzeuge zu nutzen. In dieser Arbeit stellen wir ToolScope vor, einen agentenbasierten Rahmen, der globale Planung mit lokaler multimodaler Wahrnehmung vereint und ein spezialisiertes Perceive-Werkzeug einsetzt, um den Abbau visuellen Kontexts in langfristigen VQA-Aufgaben zu mildern. ToolScope umfasst drei Hauptkomponenten: den Global Navigator, den Agentic Executor und den Response Synthesizer. Der Global Navigator fungiert als "Teleskop" und bietet strategische Orientierung auf hoher Ebene. Der Agentic Executor arbeitet iterativ, um MLLMs durch die Integration externer Werkzeuge – Search, Code und Perceive – mit lokaler Wahrnehmung zu erweitern. Abschließend konsolidiert und organisiert der Response Synthesizer den Schließprozess zu einer kohärenten, benutzerfreundlichen Ausgabe. Wir evaluieren ToolScope anhand von vier VQA-Benchmarks aus verschiedenen Domänen, darunter VQA 2.0, ScienceQA, MAT-Search und MathVista. Es demonstriert starke Generalisierungsfähigkeiten und erzielt eine durchschnittliche Leistungssteigerung von bis zu +6,69 % über alle Datensätze hinweg.
English
Recently, large language models (LLMs) have demonstrated remarkable
problem-solving capabilities by autonomously integrating with external tools
for collaborative reasoning. However, due to the inherently complex and diverse
nature of multimodal information, enabling multimodal large language models
(MLLMs) to flexibly and efficiently utilize external tools during reasoning
remains an underexplored challenge. In this work, we introduce ToolScope, an
agentic framework designed to unify global planning with local multimodal
perception, adopting a specialized Perceive tool to mitigates visual context
degradation in long-horizon VQA task. ToolScope comprises three primary
components: the Global Navigator, the Agentic Executor, and the Response
Synthesizer. The Global Navigator functions as a "telescope", offering
high-level strategic guidance. The Agentic Executor operates iteratively to
augment MLLM with local perception through the integration of external
tools-Search, Code, and Perceive. Finally, the Response Synthesizer
consolidates and organizes the reasoning process into a coherent, user-friendly
output. We evaluate ToolScope on four VQA benchmarks across diverse domains,
including VQA 2.0, ScienceQA, MAT-Search and MathVista. It demonstrates strong
generalization capabilities, achieving an average performance improvement of up
to +6.69% across all datasets.