ToolScope : Un Cadre Agentique pour l'Utilisation d'Outils Guidée par la Vision et à Long Terme
ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use
October 31, 2025
papers.authors: Mengjie Deng, Guanting Dong, Zhicheng Dou
cs.AI
papers.abstract
Récemment, les grands modèles de langage (LLM) ont démontré des capacités remarquables de résolution de problèmes en s'intégrant de manière autonome à des outils externes pour un raisonnement collaboratif. Cependant, en raison de la nature intrinsèquement complexe et diverse de l'information multimodale, permettre aux grands modèles de langage multimodaux (MLLM) d'utiliser de manière flexible et efficace des outils externes pendant le raisonnement reste un défi peu exploré. Dans ce travail, nous présentons ToolScope, un cadre agentiel conçu pour unifier la planification globale avec la perception multimodale locale, en adoptant un outil Percevoir spécialisé pour atténuer la dégradation du contexte visuel dans les tâches de question-réponse visuelle (VQA) à long horizon. ToolScope comprend trois composants principaux : le Navigateur Global, l'Exécuteur Agentiel et le Synthériseur de Réponses. Le Navigateur Global fonctionne comme un "télescope", offrant des conseils stratégiques de haut niveau. L'Exécuteur Agentiel opère de manière itérative pour augmenter le MLLM avec une perception locale via l'intégration d'outils externes - Recherche, Code et Percevoir. Enfin, le Synthériseur de Réponses consolide et organise le processus de raisonnement en une sortie cohérente et conviviale. Nous évaluons ToolScope sur quatre benchmarks VQA couvrant divers domaines, incluant VQA 2.0, ScienceQA, MAT-Search et MathVista. Il démontre de fortes capacités de généralisation, atteignant une amélioration moyenne des performances allant jusqu'à +6,69 % sur l'ensemble des jeux de données.
English
Recently, large language models (LLMs) have demonstrated remarkable
problem-solving capabilities by autonomously integrating with external tools
for collaborative reasoning. However, due to the inherently complex and diverse
nature of multimodal information, enabling multimodal large language models
(MLLMs) to flexibly and efficiently utilize external tools during reasoning
remains an underexplored challenge. In this work, we introduce ToolScope, an
agentic framework designed to unify global planning with local multimodal
perception, adopting a specialized Perceive tool to mitigates visual context
degradation in long-horizon VQA task. ToolScope comprises three primary
components: the Global Navigator, the Agentic Executor, and the Response
Synthesizer. The Global Navigator functions as a "telescope", offering
high-level strategic guidance. The Agentic Executor operates iteratively to
augment MLLM with local perception through the integration of external
tools-Search, Code, and Perceive. Finally, the Response Synthesizer
consolidates and organizes the reasoning process into a coherent, user-friendly
output. We evaluate ToolScope on four VQA benchmarks across diverse domains,
including VQA 2.0, ScienceQA, MAT-Search and MathVista. It demonstrates strong
generalization capabilities, achieving an average performance improvement of up
to +6.69% across all datasets.