ChatPaper.aiChatPaper

AdaTooler-V:画像と動画に対する適応的ツール利用

AdaTooler-V: Adaptive Tool-Use for Images and Videos

December 18, 2025
著者: Chaoyang Wang, Kaituo Feng, Dongyang Chen, Zhongyu Wang, Zhixun Li, Sicheng Gao, Meng Meng, Xu Zhou, Manyuan Zhang, Yuzhang Shang, Xiangyu Yue
cs.AI

要旨

近年の研究により、マルチモーダル大規模言語モデル(MLLM)が、視覚ツール連携を伴うマルチモーダル連鎖思考(CoT)から恩恵を受けることが示されている。しかし、既存のオープンソースモデルは、ツールが不要な場合でも視覚ツールを呼び出す「盲目的なツール使用推論」パターンを示すことが多く、これにより推論のオーバーヘッドが大幅に増加し、モデル性能が低下する。そこで本研究では、視覚問題が真にツールを必要とするかどうかを判断することで適応的なツール使用を行うMLLM、AdaTooler-Vを提案する。まず、各サンプルの「ツール便益スコア」に基づいて報酬スケールを適応的に調整する強化学習アルゴリズムAT-GRPOを導入し、ツールが真に改善をもたらす場合にのみツールを呼び出すようモデルを促進する。さらに、学習を支援するため2つのデータセットを構築した:SFTのコールドスタート用のAdaTooler-V-CoT-100kと、単一画像・複数画像・動画データにわたる検証可能な報酬を用いたRL用のAdaTooler-V-300kである。12のベンチマークによる実験では、AdaTooler-Vの強力な推論能力が実証され、多様な視覚推論タスクで既存手法を凌駕した。特に、AdaTooler-V-7Bは高解像度ベンチマークV*において89.8%の精度を達成し、商用の専有モデルであるGPT-4oおよびGemini 1.5 Proを上回った。すべてのコード、モデル、データは公開されている。
English
Recent advances have shown that multimodal large language models (MLLMs) benefit from multimodal interleaved chain-of-thought (CoT) with vision tool interactions. However, existing open-source models often exhibit blind tool-use reasoning patterns, invoking vision tools even when they are unnecessary, which significantly increases inference overhead and degrades model performance. To this end, we propose AdaTooler-V, an MLLM that performs adaptive tool-use by determining whether a visual problem truly requires tools. First, we introduce AT-GRPO, a reinforcement learning algorithm that adaptively adjusts reward scales based on the Tool Benefit Score of each sample, encouraging the model to invoke tools only when they provide genuine improvements. Moreover, we construct two datasets to support training: AdaTooler-V-CoT-100k for SFT cold start and AdaTooler-V-300k for RL with verifiable rewards across single-image, multi-image, and video data. Experiments across twelve benchmarks demonstrate the strong reasoning capability of AdaTooler-V, outperforming existing methods in diverse visual reasoning tasks. Notably, AdaTooler-V-7B achieves an accuracy of 89.8\% on the high-resolution benchmark V*, surpassing the commercial proprietary model GPT-4o and Gemini 1.5 Pro. All code, models, and data are released.
PDF102December 20, 2025