ChatPaper.aiChatPaper

AdaTooler-V : Utilisation adaptative d'outils pour les images et les vidéos

AdaTooler-V: Adaptive Tool-Use for Images and Videos

December 18, 2025
papers.authors: Chaoyang Wang, Kaituo Feng, Dongyang Chen, Zhongyu Wang, Zhixun Li, Sicheng Gao, Meng Meng, Xu Zhou, Manyuan Zhang, Yuzhang Shang, Xiangyu Yue
cs.AI

papers.abstract

Les avancées récentes ont montré que les modèles de langage multimodaux (MLLM) bénéficient d'une réflexion en chaîne intermodale avec des interactions d'outils visuels. Cependant, les modèles open-source existants présentent souvent des schémas de raisonnement aveugles à l'utilisation d'outils, invoquant des outils visuels même lorsqu'ils sont superflus, ce qui augmente considérablement la surcharge d'inférence et dégrade les performances du modèle. Pour y remédier, nous proposons AdaTooler-V, un MLLM qui réalise une utilisation adaptative des outils en déterminant si un problème visuel nécessite véritablement leur emploi. Premièrement, nous introduisons AT-GRPO, un algorithme d'apprentissage par renforcement qui ajuste dynamiquement les échelles de récompense en fonction du Score de Bénéfice de l'Outil de chaque échantillon, encourageant le modèle à n'invoquer des outils que lorsqu'ils apportent une réelle amélioration. De plus, nous avons constitué deux jeux de données pour l'entraînement : AdaTooler-V-CoT-100k pour l'amorçage SFT et AdaTooler-V-300k pour l'apprentissage par renforcement avec des récompenses vérifiables sur des données à image unique, multi-images et vidéo. Les expériences menées sur douze benchmarks démontrent la forte capacité de raisonnement d'AdaTooler-V, surpassant les méthodes existantes dans diverses tâches de raisonnement visuel. Notamment, AdaTooler-V-7B atteint une précision de 89,8 % sur le benchmark haute résolution V*, dépassant le modèle propriétaire commercial GPT-4o et Gemini 1.5 Pro. L'ensemble du code, des modèles et des données est publié.
English
Recent advances have shown that multimodal large language models (MLLMs) benefit from multimodal interleaved chain-of-thought (CoT) with vision tool interactions. However, existing open-source models often exhibit blind tool-use reasoning patterns, invoking vision tools even when they are unnecessary, which significantly increases inference overhead and degrades model performance. To this end, we propose AdaTooler-V, an MLLM that performs adaptive tool-use by determining whether a visual problem truly requires tools. First, we introduce AT-GRPO, a reinforcement learning algorithm that adaptively adjusts reward scales based on the Tool Benefit Score of each sample, encouraging the model to invoke tools only when they provide genuine improvements. Moreover, we construct two datasets to support training: AdaTooler-V-CoT-100k for SFT cold start and AdaTooler-V-300k for RL with verifiable rewards across single-image, multi-image, and video data. Experiments across twelve benchmarks demonstrate the strong reasoning capability of AdaTooler-V, outperforming existing methods in diverse visual reasoning tasks. Notably, AdaTooler-V-7B achieves an accuracy of 89.8\% on the high-resolution benchmark V*, surpassing the commercial proprietary model GPT-4o and Gemini 1.5 Pro. All code, models, and data are released.
PDF102December 20, 2025