AdaTooler-V: Adaptief Gereedschapsgebruik voor Afbeeldingen en Video's
AdaTooler-V: Adaptive Tool-Use for Images and Videos
December 18, 2025
Auteurs: Chaoyang Wang, Kaituo Feng, Dongyang Chen, Zhongyu Wang, Zhixun Li, Sicheng Gao, Meng Meng, Xu Zhou, Manyuan Zhang, Yuzhang Shang, Xiangyu Yue
cs.AI
Samenvatting
Recente ontwikkelingen tonen aan dat multimodale grote-taalmmodellen (MLLM's) baat hebben bij multimodale, interleaved chain-of-thought (CoT) met visuele toolinteracties. Bestaande open-source modellen vertonen echter vaak een blind tool-use redeneerpatroon, waarbij visuele tools worden aangeroepen zelfs wanneer dit niet nodig is, wat de inferentie-overhead aanzienlijk verhoogt en de modelprestaties verslechtert. Daartoe stellen wij AdaTooler-V voor, een MLLM die adaptief tool-use uitvoert door te bepalen of een visueel probleem daadwerkelijk tools vereist. Ten eerste introduceren we AT-GRPO, een reinforcement learning-algoritme dat de beloningsschalen adaptief aanpast op basis van de Tool Benefit Score van elk sample, waardoor het model wordt aangemoedigd alleen tools aan te roepen wanneer deze echte verbeteringen bieden. Bovendien construeren we twee datasets ter ondersteuning van de training: AdaTooler-V-CoT-100k voor SFT-koude start en AdaTooler-V-300k voor RL met verifieerbare beloningen over single-image, multi-image en videodata. Experimenten over twaalf benchmarks demonstreren de sterke redeneercapaciteit van AdaTooler-V, die bestaande methoden overtreft in diverse visuele redeneertaken. Opmerkelijk is dat AdaTooler-V-7B een nauwkeurigheid van 89,8% behaalt op de high-resolution benchmark V*, waarmee het het commerciële propriëtaire model GPT-4o en Gemini 1.5 Pro overtreft. Alle code, modellen en data worden vrijgegeven.
English
Recent advances have shown that multimodal large language models (MLLMs) benefit from multimodal interleaved chain-of-thought (CoT) with vision tool interactions. However, existing open-source models often exhibit blind tool-use reasoning patterns, invoking vision tools even when they are unnecessary, which significantly increases inference overhead and degrades model performance. To this end, we propose AdaTooler-V, an MLLM that performs adaptive tool-use by determining whether a visual problem truly requires tools. First, we introduce AT-GRPO, a reinforcement learning algorithm that adaptively adjusts reward scales based on the Tool Benefit Score of each sample, encouraging the model to invoke tools only when they provide genuine improvements. Moreover, we construct two datasets to support training: AdaTooler-V-CoT-100k for SFT cold start and AdaTooler-V-300k for RL with verifiable rewards across single-image, multi-image, and video data. Experiments across twelve benchmarks demonstrate the strong reasoning capability of AdaTooler-V, outperforming existing methods in diverse visual reasoning tasks. Notably, AdaTooler-V-7B achieves an accuracy of 89.8\% on the high-resolution benchmark V*, surpassing the commercial proprietary model GPT-4o and Gemini 1.5 Pro. All code, models, and data are released.