ChatPaper.aiChatPaper

ToolScope: Un Marco Agéntico para el Uso de Herramientas Guiado por Visión y de Horizonte Largo

ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use

October 31, 2025
Autores: Mengjie Deng, Guanting Dong, Zhicheng Dou
cs.AI

Resumen

Recientemente, los modelos de lenguaje extenso (LLMs) han demostrado capacidades notables para resolver problemas mediante la integración autónoma con herramientas externas para el razonamiento colaborativo. Sin embargo, debido a la naturaleza inherentemente compleja y diversa de la información multimodal, permitir que los modelos de lenguaje extenso multimodales (MLLMs) utilicen herramientas externas de manera flexible y eficiente durante el razonamiento sigue siendo un desafío poco explorado. En este trabajo, presentamos ToolScope, un marco agéntico diseñado para unificar la planificación global con la percepción multimodal local, adoptando una herramienta especializada Perceive para mitigar la degradación del contexto visual en tareas de VQA de largo horizonte. ToolScope comprende tres componentes principales: el Navegador Global, el Ejecutor Agéntico y el Sintetizador de Respuestas. El Navegador Global funciona como un "telescopio", ofreciendo orientación estratégica de alto nivel. El Ejecutor Agéntico opera de forma iterativa para aumentar el MLLM con percepción local mediante la integración de herramientas externas: Search, Code y Perceive. Finalmente, el Sintetizador de Respuestas consolida y organiza el proceso de razonamiento en una salida coherente y fácil de usar para el usuario. Evaluamos ToolScope en cuatro benchmarks de VQA en diversos dominios, incluyendo VQA 2.0, ScienceQA, MAT-Search y MathVista. Demuestra fuertes capacidades de generalización, logrando una mejora promedio en el rendimiento de hasta +6.69% en todos los conjuntos de datos.
English
Recently, large language models (LLMs) have demonstrated remarkable problem-solving capabilities by autonomously integrating with external tools for collaborative reasoning. However, due to the inherently complex and diverse nature of multimodal information, enabling multimodal large language models (MLLMs) to flexibly and efficiently utilize external tools during reasoning remains an underexplored challenge. In this work, we introduce ToolScope, an agentic framework designed to unify global planning with local multimodal perception, adopting a specialized Perceive tool to mitigates visual context degradation in long-horizon VQA task. ToolScope comprises three primary components: the Global Navigator, the Agentic Executor, and the Response Synthesizer. The Global Navigator functions as a "telescope", offering high-level strategic guidance. The Agentic Executor operates iteratively to augment MLLM with local perception through the integration of external tools-Search, Code, and Perceive. Finally, the Response Synthesizer consolidates and organizes the reasoning process into a coherent, user-friendly output. We evaluate ToolScope on four VQA benchmarks across diverse domains, including VQA 2.0, ScienceQA, MAT-Search and MathVista. It demonstrates strong generalization capabilities, achieving an average performance improvement of up to +6.69% across all datasets.
PDF222January 19, 2026