ChatPaper.aiChatPaper

AdaTooler-V: Utilizzo Adattivo degli Strumenti per Immagini e Video

AdaTooler-V: Adaptive Tool-Use for Images and Videos

December 18, 2025
Autori: Chaoyang Wang, Kaituo Feng, Dongyang Chen, Zhongyu Wang, Zhixun Li, Sicheng Gao, Meng Meng, Xu Zhou, Manyuan Zhang, Yuzhang Shang, Xiangyu Yue
cs.AI

Abstract

Recenti progressi hanno dimostrato che i modelli linguistici multimodali di grandi dimensioni (MLLM) traggono vantaggio da una catena di pensiero (CoT) intervallata multimodale con interazioni di strumenti visivi. Tuttavia, i modelli open-source esistenti spesso mostrano pattern di ragionamento nell'uso degli strumenti acritici, invocando strumenti visivi anche quando non sono necessari, il che aumenta significativamente il sovraccarico computazionale e degrada le prestazioni del modello. A tal fine, proponiamo AdaTooler-V, un MLLM che esegue un uso adattivo degli strumenti determinando se un problema visivo richieda veramente l'uso di tool. In primo luogo, introduciamo AT-GRPO, un algoritmo di apprendimento per rinforzo che regola in modo adattivo le scale di ricompensa in base al Punteggio di Beneficio dello Strumento di ciascun campione, incoraggiando il modello a invocare strumenti solo quando questi forniscono miglioramenti genuini. Inoltre, abbiamo costruito due dataset per supportare l'addestramento: AdaTooler-V-CoT-100k per l'avvio a freddo SFT e AdaTooler-V-300k per l'RL con ricompense verificabili su dati di singola immagine, immagini multiple e video. Esperimenti su dodici benchmark dimostrano le solide capacità di ragionamento di AdaTooler-V, che supera i metodi esistenti in varie attività di ragionamento visivo. In particolare, AdaTooler-V-7B raggiunge un'accuratezza dell'89,8% sul benchmark ad alta risoluzione V*, superando il modello proprietario commerciale GPT-4o e Gemini 1.5 Pro. Tutto il codice, i modelli e i dati sono rilasciati pubblicamente.
English
Recent advances have shown that multimodal large language models (MLLMs) benefit from multimodal interleaved chain-of-thought (CoT) with vision tool interactions. However, existing open-source models often exhibit blind tool-use reasoning patterns, invoking vision tools even when they are unnecessary, which significantly increases inference overhead and degrades model performance. To this end, we propose AdaTooler-V, an MLLM that performs adaptive tool-use by determining whether a visual problem truly requires tools. First, we introduce AT-GRPO, a reinforcement learning algorithm that adaptively adjusts reward scales based on the Tool Benefit Score of each sample, encouraging the model to invoke tools only when they provide genuine improvements. Moreover, we construct two datasets to support training: AdaTooler-V-CoT-100k for SFT cold start and AdaTooler-V-300k for RL with verifiable rewards across single-image, multi-image, and video data. Experiments across twelve benchmarks demonstrate the strong reasoning capability of AdaTooler-V, outperforming existing methods in diverse visual reasoning tasks. Notably, AdaTooler-V-7B achieves an accuracy of 89.8\% on the high-resolution benchmark V*, surpassing the commercial proprietary model GPT-4o and Gemini 1.5 Pro. All code, models, and data are released.
PDF112December 21, 2025