AdaTooler-V: Адаптивное использование инструментов для изображений и видео
AdaTooler-V: Adaptive Tool-Use for Images and Videos
December 18, 2025
Авторы: Chaoyang Wang, Kaituo Feng, Dongyang Chen, Zhongyu Wang, Zhixun Li, Sicheng Gao, Meng Meng, Xu Zhou, Manyuan Zhang, Yuzhang Shang, Xiangyu Yue
cs.AI
Аннотация
Последние исследования показали, что мультимодальные большие языковые модели (MLLM) выигрывают от использования межмодальных цепочек рассуждений (CoT) с интерактивными визуальными инструментами. Однако существующие модели с открытым исходным кодом часто демонстрируют слепой паттерн использования инструментов, активируя визуальные инструменты даже когда в этом нет необходимости, что значительно увеличивает вычислительные затраты и снижает производительность модели. Для решения этой проблемы мы предлагаем AdaTooler-V — MLLM, которая адаптивно использует инструменты, определяя, действительно ли визуальная задача требует их применения. Во-первых, мы представляем AT-GRPO — алгоритм обучения с подкреплением, который адаптивно корректирует шкалу вознаграждений на основе показателя полезности инструментов для каждого образца, поощряя модель задействовать инструменты только когда они обеспечивают реальное улучшение. Кроме того, мы создали два набора данных для обучения: AdaTooler-V-CoT-100k для холодного старта SFT и AdaTooler-V-300k для RL с верифицируемыми вознаграждениями, охватывающие данные с одним изображением, несколькими изображениями и видео. Эксперименты на двенадцати тестовых наборах демонстрируют высокие способности AdaTooler-V к рассуждениям, превосходящие существующие методы в разнообразных задачах визуального мышления. Примечательно, что AdaTooler-V-7B достигает точности 89.8% на бенчмарке высокого разрешения V*, опережая коммерческие проприетарные модели GPT-4o и Gemini 1.5 Pro. Весь код, модели и данные опубликованы.
English
Recent advances have shown that multimodal large language models (MLLMs) benefit from multimodal interleaved chain-of-thought (CoT) with vision tool interactions. However, existing open-source models often exhibit blind tool-use reasoning patterns, invoking vision tools even when they are unnecessary, which significantly increases inference overhead and degrades model performance. To this end, we propose AdaTooler-V, an MLLM that performs adaptive tool-use by determining whether a visual problem truly requires tools. First, we introduce AT-GRPO, a reinforcement learning algorithm that adaptively adjusts reward scales based on the Tool Benefit Score of each sample, encouraging the model to invoke tools only when they provide genuine improvements. Moreover, we construct two datasets to support training: AdaTooler-V-CoT-100k for SFT cold start and AdaTooler-V-300k for RL with verifiable rewards across single-image, multi-image, and video data. Experiments across twelve benchmarks demonstrate the strong reasoning capability of AdaTooler-V, outperforming existing methods in diverse visual reasoning tasks. Notably, AdaTooler-V-7B achieves an accuracy of 89.8\% on the high-resolution benchmark V*, surpassing the commercial proprietary model GPT-4o and Gemini 1.5 Pro. All code, models, and data are released.