ChatPaper.aiChatPaper

AdaTooler-V: Uso Adaptativo de Herramientas para Imágenes y Vídeos

AdaTooler-V: Adaptive Tool-Use for Images and Videos

December 18, 2025
Autores: Chaoyang Wang, Kaituo Feng, Dongyang Chen, Zhongyu Wang, Zhixun Li, Sicheng Gao, Meng Meng, Xu Zhou, Manyuan Zhang, Yuzhang Shang, Xiangyu Yue
cs.AI

Resumen

Los avances recientes han demostrado que los modelos de lenguaje multimodal (MLLM) se benefician de una cadena de pensamiento (CoT) intercalada multimodal con interacciones de herramientas visuales. Sin embargo, los modelos de código abierto existentes a menudo exhiben patrones de razonamiento ciegos en el uso de herramientas, invocándolas incluso cuando son innecesarias, lo que incrementa significativamente la sobrecarga computacional y degrada el rendimiento del modelo. Para abordar este problema, proponemos AdaTooler-V, un MLLM que realiza un uso adaptativo de herramientas determinando si un problema visual realmente las requiere. En primer lugar, presentamos AT-GRPO, un algoritmo de aprendizaje por refuerzo que ajusta adaptativamente las escalas de recompensa basándose en la Puntuación de Beneficio de la Herramienta de cada muestra, incentivando al modelo a invocar herramientas solo cuando proporcionan mejoras genuinas. Además, construimos dos conjuntos de datos para apoyar el entrenamiento: AdaTooler-V-CoT-100k para el arranque en frío mediante SFT y AdaTooler-V-300k para el aprendizaje por refuerzo con recompensas verificables en datos de imagen única, múltiples imágenes y video. Los experimentos en doce benchmarks demuestran la sólida capacidad de razonamiento de AdaTooler-V, superando a los métodos existentes en diversas tareas de razonamiento visual. Notablemente, AdaTooler-V-7B alcanza una precisión del 89.8% en el benchmark de alta resolución V*, superando al modelo comercial propietario GPT-4o y a Gemini 1.5 Pro. Todo el código, modelos y datos han sido liberados.
English
Recent advances have shown that multimodal large language models (MLLMs) benefit from multimodal interleaved chain-of-thought (CoT) with vision tool interactions. However, existing open-source models often exhibit blind tool-use reasoning patterns, invoking vision tools even when they are unnecessary, which significantly increases inference overhead and degrades model performance. To this end, we propose AdaTooler-V, an MLLM that performs adaptive tool-use by determining whether a visual problem truly requires tools. First, we introduce AT-GRPO, a reinforcement learning algorithm that adaptively adjusts reward scales based on the Tool Benefit Score of each sample, encouraging the model to invoke tools only when they provide genuine improvements. Moreover, we construct two datasets to support training: AdaTooler-V-CoT-100k for SFT cold start and AdaTooler-V-300k for RL with verifiable rewards across single-image, multi-image, and video data. Experiments across twelve benchmarks demonstrate the strong reasoning capability of AdaTooler-V, outperforming existing methods in diverse visual reasoning tasks. Notably, AdaTooler-V-7B achieves an accuracy of 89.8\% on the high-resolution benchmark V*, surpassing the commercial proprietary model GPT-4o and Gemini 1.5 Pro. All code, models, and data are released.
PDF102December 20, 2025