AdaTooler-V: 이미지 및 비디오를 위한 적응형 도구 활용
AdaTooler-V: Adaptive Tool-Use for Images and Videos
December 18, 2025
저자: Chaoyang Wang, Kaituo Feng, Dongyang Chen, Zhongyu Wang, Zhixun Li, Sicheng Gao, Meng Meng, Xu Zhou, Manyuan Zhang, Yuzhang Shang, Xiangyu Yue
cs.AI
초록
최근 연구에 따르면 멀티모달 대규모 언어 모델(MLLM)은 비전 도구 상호작용이 포함된 멀티모달 연속 사고(CoT) 방식을 통해 성능 향상의 이점을 얻는 것으로 나타났습니다. 그러나 기존 오픈소스 모델들은 종종 불필요한 상황에서도 비전 도구를 호출하는 맹목적인 도구 사용 추론 패턴을 보여주며, 이는 추론 오버헤드를 크게 증가시키고 모델 성능을 저하시킵니다. 이를 해결하기 위해 우리는 시각적 문제가 실제로 도구를 필요로 하는지 여부를 판단하여 적응형 도구 사용을 수행하는 MLLM인 AdaTooler-V를 제안합니다. 먼저, 각 샘플의 도구 혜택 점수에 기반하여 보상 규모를 적응적으로 조정하는 강화 학습 알고리즘인 AT-GRPO를 도입하여 모델이 진정한 개선이 있을 때만 도구를 호출하도록 유도합니다. 더불어 단일 이미지, 다중 이미지, 비디오 데이터에 걸쳐 검증 가능한 보상이 포함된 SFT 콜드 스타트용 AdaTooler-V-CoT-100k와 RL용 AdaTooler-V-300k 데이터셋을 구축하여 학습을 지원합니다. 12개 벤치마크에 대한 실험 결과, AdaTooler-V는 다양한 시각적 추론 과제에서 기존 방법들을 능가하는 강력한 추론 능력을 입증했습니다. 특히 AdaTooler-V-7B는 고해상도 벤치마크 V*에서 89.8%의 정확도를 달성하여 상용 전문 모델인 GPT-4o와 Gemini 1.5 Pro를 능가했습니다. 모든 코드, 모델 및 데이터는 공개되었습니다.
English
Recent advances have shown that multimodal large language models (MLLMs) benefit from multimodal interleaved chain-of-thought (CoT) with vision tool interactions. However, existing open-source models often exhibit blind tool-use reasoning patterns, invoking vision tools even when they are unnecessary, which significantly increases inference overhead and degrades model performance. To this end, we propose AdaTooler-V, an MLLM that performs adaptive tool-use by determining whether a visual problem truly requires tools. First, we introduce AT-GRPO, a reinforcement learning algorithm that adaptively adjusts reward scales based on the Tool Benefit Score of each sample, encouraging the model to invoke tools only when they provide genuine improvements. Moreover, we construct two datasets to support training: AdaTooler-V-CoT-100k for SFT cold start and AdaTooler-V-300k for RL with verifiable rewards across single-image, multi-image, and video data. Experiments across twelve benchmarks demonstrate the strong reasoning capability of AdaTooler-V, outperforming existing methods in diverse visual reasoning tasks. Notably, AdaTooler-V-7B achieves an accuracy of 89.8\% on the high-resolution benchmark V*, surpassing the commercial proprietary model GPT-4o and Gemini 1.5 Pro. All code, models, and data are released.