ChatPaper.aiChatPaper

ToolScope: Un Framework Agente per l'Uso di Strumenti Guidato dalla Vista e a Lungo Orizzonte

ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use

October 31, 2025
Autori: Mengjie Deng, Guanting Dong, Zhicheng Dou
cs.AI

Abstract

Recentemente, i grandi modelli linguistici (LLM) hanno dimostrato notevoli capacità di problem-solving integrandosi autonomamente con strumenti esterni per ragionamenti collaborativi. Tuttavia, a causa della natura intrinsecamente complessa e diversificata delle informazioni multimodali, consentire ai grandi modelli linguistici multimodali (MLLM) di utilizzare strumenti esterni in modo flessibile ed efficiente durante il ragionamento rimane una sfida ancora poco esplorata. In questo lavoro presentiamo ToolScope, un framework agentico progettato per unificare la pianificazione globale con la percezione multimodale locale, adottando uno strumento specializzato Perceive per mitigare il degrado del contesto visivo nei task VQA a lungo orizzonte. ToolScope comprende tre componenti principali: il Navigatore Globale, l'Esecutore Agentico e il Sintetizzatore delle Risposte. Il Navigatore Globale funge da "telescopio", fornendo una guida strategica di alto livello. L'Esecutore Agentico opera iterativamente per potenziare l'MLLM con percezione locale attraverso l'integrazione di strumenti esterni - Search, Code e Perceive. Infine, il Sintetizzatore delle Risposte consolida e organizza il processo di ragionamento in un output coerente e user-friendly. Valutiamo ToolScope su quattro benchmark VQA in diversi domini, inclusi VQA 2.0, ScienceQA, MAT-Search e MathVista. Il framework dimostra solide capacità di generalizzazione, raggiungendo un miglioramento prestazionale medio fino al +6,69% su tutti i dataset.
English
Recently, large language models (LLMs) have demonstrated remarkable problem-solving capabilities by autonomously integrating with external tools for collaborative reasoning. However, due to the inherently complex and diverse nature of multimodal information, enabling multimodal large language models (MLLMs) to flexibly and efficiently utilize external tools during reasoning remains an underexplored challenge. In this work, we introduce ToolScope, an agentic framework designed to unify global planning with local multimodal perception, adopting a specialized Perceive tool to mitigates visual context degradation in long-horizon VQA task. ToolScope comprises three primary components: the Global Navigator, the Agentic Executor, and the Response Synthesizer. The Global Navigator functions as a "telescope", offering high-level strategic guidance. The Agentic Executor operates iteratively to augment MLLM with local perception through the integration of external tools-Search, Code, and Perceive. Finally, the Response Synthesizer consolidates and organizes the reasoning process into a coherent, user-friendly output. We evaluate ToolScope on four VQA benchmarks across diverse domains, including VQA 2.0, ScienceQA, MAT-Search and MathVista. It demonstrates strong generalization capabilities, achieving an average performance improvement of up to +6.69% across all datasets.
PDF222December 2, 2025