ChatPaper.aiChatPaper

ToolScope: Агентный фреймворк для использования инструментов с визуальным управлением и долгосрочным горизонтом планирования

ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use

October 31, 2025
Авторы: Mengjie Deng, Guanting Dong, Zhicheng Dou
cs.AI

Аннотация

В последнее время большие языковые модели (LLM) продемонстрировали впечатляющие способности к решению задач за счет автономной интеграции с внешними инструментами для совместного рассуждения. Однако из-за изначально сложной и разнородной природы мультимодальной информации задача обеспечения гибкого и эффективного использования внешних инструментов мультимодальными большими языковыми моделями (MLLM) в процессе рассуждений остается малоизученной проблемой. В данной работе мы представляем ToolScope — агентный фреймворк, предназначенный для объединения глобального планирования с локальным мультимодальным восприятием, который использует специализированный инструмент Perceive для смягчения деградации визуального контекста в задачах VQA с длинным горизонтом. ToolScope состоит из трех основных компонентов: Глобального навигатора, Агентного исполнителя и Синтезатора ответов. Глобальный навигатор функционирует как «телескоп», предоставляя стратегические указания высокого уровня. Агентный исполнитель работает итеративно, расширяя возможности MLLM за счет локального восприятия через интеграцию внешних инструментов — Search, Code и Perceive. Наконец, Синтезатор ответов объединяет и организует процесс рассуждений в связный и удобный для пользователя вывод. Мы оцениваем ToolScope на четырех бенчмарках VQA из различных областей, включая VQA 2.0, ScienceQA, MAT-Search и MathVista. Фреймворк демонстрирует высокие способности к обобщению, достигая среднего прироста производительности до +6,69% на всех наборах данных.
English
Recently, large language models (LLMs) have demonstrated remarkable problem-solving capabilities by autonomously integrating with external tools for collaborative reasoning. However, due to the inherently complex and diverse nature of multimodal information, enabling multimodal large language models (MLLMs) to flexibly and efficiently utilize external tools during reasoning remains an underexplored challenge. In this work, we introduce ToolScope, an agentic framework designed to unify global planning with local multimodal perception, adopting a specialized Perceive tool to mitigates visual context degradation in long-horizon VQA task. ToolScope comprises three primary components: the Global Navigator, the Agentic Executor, and the Response Synthesizer. The Global Navigator functions as a "telescope", offering high-level strategic guidance. The Agentic Executor operates iteratively to augment MLLM with local perception through the integration of external tools-Search, Code, and Perceive. Finally, the Response Synthesizer consolidates and organizes the reasoning process into a coherent, user-friendly output. We evaluate ToolScope on four VQA benchmarks across diverse domains, including VQA 2.0, ScienceQA, MAT-Search and MathVista. It demonstrates strong generalization capabilities, achieving an average performance improvement of up to +6.69% across all datasets.
PDF222January 19, 2026