AdaTooler-V: Uso Adaptativo de Ferramentas para Imagens e Vídeos

Resumo

Avanços recentes demonstraram que os modelos de linguagem grandes multimodais (MLLMs) beneficiam de uma cadeia de pensamento (CoT) intercalada multimodal com interações de ferramentas visuais. No entanto, os modelos de código aberto existentes frequentemente exibem padrões de raciocínio cego no uso de ferramentas, invocando ferramentas visuais mesmo quando desnecessárias, o que aumenta significativamente a sobrecarga de inferência e degrada o desempenho do modelo. Para tal, propomos o AdaTooler-V, um MLLM que executa um uso adaptativo de ferramentas, determinando se um problema visual realmente as requer. Primeiro, introduzimos o AT-GRPO, um algoritmo de aprendizagem por reforço que ajusta adaptativamente as escalas de recompensa com base na Pontuação de Benefício da Ferramenta de cada amostra, incentivando o modelo a invocar ferramentas apenas quando estas proporcionam melhorias genuínas. Adicionalmente, construímos dois conjuntos de dados para suportar o treino: AdaTooler-V-CoT-100k para o arranque a frio por SFT e AdaTooler-V-300k para RL com recompensas verificáveis em dados de imagem única, múltiplas imagens e vídeo. Experiências em doze benchmarks demonstram a forte capacidade de raciocínio do AdaTooler-V, superando métodos existentes em diversas tarefas de raciocínio visual. Notavelmente, o AdaTooler-V-7B atinge uma precisão de 89,8% no benchmark de alta resolução V*, superando o modelo proprietário comercial GPT-4o e o Gemini 1.5 Pro. Todo o código, modelos e dados são disponibilizados.

English

Recent advances have shown that multimodal large language models (MLLMs) benefit from multimodal interleaved chain-of-thought (CoT) with vision tool interactions. However, existing open-source models often exhibit blind tool-use reasoning patterns, invoking vision tools even when they are unnecessary, which significantly increases inference overhead and degrades model performance. To this end, we propose AdaTooler-V, an MLLM that performs adaptive tool-use by determining whether a visual problem truly requires tools. First, we introduce AT-GRPO, a reinforcement learning algorithm that adaptively adjusts reward scales based on the Tool Benefit Score of each sample, encouraging the model to invoke tools only when they provide genuine improvements. Moreover, we construct two datasets to support training: AdaTooler-V-CoT-100k for SFT cold start and AdaTooler-V-300k for RL with verifiable rewards across single-image, multi-image, and video data. Experiments across twelve benchmarks demonstrate the strong reasoning capability of AdaTooler-V, outperforming existing methods in diverse visual reasoning tasks. Notably, AdaTooler-V-7B achieves an accuracy of 89.8\% on the high-resolution benchmark V*, surpassing the commercial proprietary model GPT-4o and Gemini 1.5 Pro. All code, models, and data are released.

AdaTooler-V: Uso Adaptativo de Ferramentas para Imagens e Vídeos

AdaTooler-V: Adaptive Tool-Use for Images and Videos

Resumo

Support