ChatPaper.aiChatPaper

AdaTooler-V: Adaptive Werkzeugnutzung für Bilder und Videos

AdaTooler-V: Adaptive Tool-Use for Images and Videos

December 18, 2025
papers.authors: Chaoyang Wang, Kaituo Feng, Dongyang Chen, Zhongyu Wang, Zhixun Li, Sicheng Gao, Meng Meng, Xu Zhou, Manyuan Zhang, Yuzhang Shang, Xiangyu Yue
cs.AI

papers.abstract

Jüngste Fortschritte haben gezeigt, dass multimodale große Sprachmodelle (MLLMs) von multimodalen, verschachtelten Denkketten (Chain-of-Thought, CoT) mit Interaktionen von Vision-Tools profitieren. Allerdings zeigen bestehende Open-Source-Modelle oft blinde Tool-Use-Reasoning-Muster, bei denen Vision-Tools selbst dann aufgerufen werden, wenn sie unnötig sind, was den Inferenzaufwand erheblich erhöht und die Modellleistung beeinträchtigt. Zu diesem Zweck schlagen wir AdaTooler-V vor, ein MLLM, das adaptiven Tool-Use durchführt, indem es bestimmt, ob ein visuelles Problem tatsächlich Tools erfordert. Zunächst führen wir AT-GRPO ein, einen Reinforcement-Learning-Algorithmus, der die Belohnungsskalen basierend auf dem Tool Benefit Score jeder Stichprobe adaptiv anpasst und das Modell dazu anregt, Tools nur dann aufzurufen, wenn sie echte Verbesserungen bieten. Darüber hinaus erstellen wir zwei Datensätze zur Unterstützung des Trainings: AdaTooler-V-CoT-100k für den SFT-Kaltstart und AdaTooler-V-300k für RL mit verifizierbaren Belohnungen über Einzelbild-, Mehrbild- und Videodaten. Experimente über zwölf Benchmarks demonstrieren die starke Reasoning-Fähigkeit von AdaTooler-V, das bestehende Methoden in verschiedenen visuellen Reasoning-Aufgaben übertrifft. Bemerkenswerterweise erreicht AdaTooler-V-7B eine Genauigkeit von 89,8 % auf dem hochauflösenden Benchmark V* und übertrifft damit das kommerzielle proprietäre Modell GPT-4o und Gemini 1.5 Pro. Sämtlicher Code, Modelle und Daten werden veröffentlicht.
English
Recent advances have shown that multimodal large language models (MLLMs) benefit from multimodal interleaved chain-of-thought (CoT) with vision tool interactions. However, existing open-source models often exhibit blind tool-use reasoning patterns, invoking vision tools even when they are unnecessary, which significantly increases inference overhead and degrades model performance. To this end, we propose AdaTooler-V, an MLLM that performs adaptive tool-use by determining whether a visual problem truly requires tools. First, we introduce AT-GRPO, a reinforcement learning algorithm that adaptively adjusts reward scales based on the Tool Benefit Score of each sample, encouraging the model to invoke tools only when they provide genuine improvements. Moreover, we construct two datasets to support training: AdaTooler-V-CoT-100k for SFT cold start and AdaTooler-V-300k for RL with verifiable rewards across single-image, multi-image, and video data. Experiments across twelve benchmarks demonstrate the strong reasoning capability of AdaTooler-V, outperforming existing methods in diverse visual reasoning tasks. Notably, AdaTooler-V-7B achieves an accuracy of 89.8\% on the high-resolution benchmark V*, surpassing the commercial proprietary model GPT-4o and Gemini 1.5 Pro. All code, models, and data are released.
PDF102December 20, 2025