ToolScope: Uma Estrutura Agente para Uso de Ferramentas de Longo Horizonte e Guiadas por Visão
ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use
October 31, 2025
Autores: Mengjie Deng, Guanting Dong, Zhicheng Dou
cs.AI
Resumo
Recentemente, os grandes modelos de linguagem (LLMs) demonstraram capacidades notáveis de resolução de problemas ao se integrarem autonomamente com ferramentas externas para raciocínio colaborativo. No entanto, devido à natureza inerentemente complexa e diversa da informação multimodal, permitir que os modelos grandes de linguagem multimodal (MLLMs) utilizem ferramentas externas de forma flexível e eficiente durante o raciocínio permanece um desafio pouco explorado. Neste trabalho, apresentamos o ToolScope, uma estrutura agentística projetada para unificar o planejamento global com a percepção multimodal local, adotando uma ferramenta especializada Perceive para mitigar a degradação do contexto visual em tarefas de VQA de longo horizonte. O ToolScope compreende três componentes principais: o Navegador Global, o Executor Agentístico e o Sintetizador de Respostas. O Navegador Global funciona como uma "lente telescópica", oferecendo orientação estratégica de alto nível. O Executor Agentístico opera iterativamente para aumentar o MLLM com percepção local por meio da integração de ferramentas externas - Search, Code e Perceive. Por fim, o Sintetizador de Respostas consolida e organiza o processo de raciocínio em uma saída coerente e amigável ao usuário. Avaliamos o ToolScope em quatro benchmarks de VQA em diversos domínios, incluindo VQA 2.0, ScienceQA, MAT-Search e MathVista. O framework demonstra fortes capacidades de generalização, alcançando uma melhoria média de desempenho de até +6,69% em todos os conjuntos de dados.
English
Recently, large language models (LLMs) have demonstrated remarkable
problem-solving capabilities by autonomously integrating with external tools
for collaborative reasoning. However, due to the inherently complex and diverse
nature of multimodal information, enabling multimodal large language models
(MLLMs) to flexibly and efficiently utilize external tools during reasoning
remains an underexplored challenge. In this work, we introduce ToolScope, an
agentic framework designed to unify global planning with local multimodal
perception, adopting a specialized Perceive tool to mitigates visual context
degradation in long-horizon VQA task. ToolScope comprises three primary
components: the Global Navigator, the Agentic Executor, and the Response
Synthesizer. The Global Navigator functions as a "telescope", offering
high-level strategic guidance. The Agentic Executor operates iteratively to
augment MLLM with local perception through the integration of external
tools-Search, Code, and Perceive. Finally, the Response Synthesizer
consolidates and organizes the reasoning process into a coherent, user-friendly
output. We evaluate ToolScope on four VQA benchmarks across diverse domains,
including VQA 2.0, ScienceQA, MAT-Search and MathVista. It demonstrates strong
generalization capabilities, achieving an average performance improvement of up
to +6.69% across all datasets.