OpenThinkIMG : Apprendre à penser avec des images via un renforcement d'apprentissage par outils visuels
OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning
May 13, 2025
Auteurs: Zhaochen Su, Linjie Li, Mingyang Song, Yunzhuo Hao, Zhengyuan Yang, Jun Zhang, Guanjie Chen, Jiawei Gu, Juntao Li, Xiaoye Qu, Yu Cheng
cs.AI
Résumé
Alors que les humains peuvent exploiter de manière flexible la cognition visuelle interactive pour résoudre des problèmes complexes, permettre aux Grands Modèles Vision-Langage (LVLMs) d'apprendre des comportements adaptatifs similaires avec des outils visuels reste un défi. Un obstacle majeur est l'absence actuelle d'infrastructure standardisée, ce qui entrave l'intégration d'outils divers, la génération de données d'interaction riches et l'entraînement efficace d'agents robustes. Pour combler ces lacunes, nous présentons OpenThinkIMG, le premier framework open-source et complet de bout en bout pour les LVLMs augmentés d'outils. Il propose des interfaces standardisées pour les outils visuels, une génération évolutive de trajectoires pour l'initialisation des politiques, et un environnement d'entraînement flexible. De plus, considérant que le fine-tuning supervisé (SFT) sur des démonstrations statiques offre une généralisation limitée des politiques pour l'invocation dynamique d'outils, nous proposons un nouveau framework d'apprentissage par renforcement (RL), V-ToolRL, pour entraîner les LVLMs à apprendre des politiques adaptatives pour invoquer des outils visuels externes. V-ToolRL permet aux LVLMs de découvrir de manière autonome les stratégies optimales d'utilisation des outils en optimisant directement la réussite des tâches grâce aux retours des interactions avec les outils. Nous validons empiriquement V-ToolRL sur des tâches complexes de raisonnement sur des graphiques. Notre agent entraîné par RL, basé sur un Qwen2-VL-2B, surpasse significativement son homologue initialisé par SFT (+28,83 points) et dépasse les bases de référence supervisées pour l'apprentissage d'outils comme Taco et CogCom en moyenne de +12,7 points. Notamment, il surpasse également des modèles propriétaires de premier plan comme GPT-4.1 de +8,68 points de précision. Nous espérons qu'OpenThinkIMG pourra servir de framework fondateur pour faire progresser le raisonnement visuel dynamique augmenté d'outils, aidant la communauté à développer des agents IA capables de véritablement "penser avec des images".
English
While humans can flexibly leverage interactive visual cognition for complex
problem-solving, enabling Large Vision-Language Models (LVLMs) to learn
similarly adaptive behaviors with visual tools remains challenging. A
significant hurdle is the current lack of standardized infrastructure, which
hinders integrating diverse tools, generating rich interaction data, and
training robust agents effectively. To address these gaps, we introduce
OpenThinkIMG, the first open-source, comprehensive end-to-end framework for
tool-augmented LVLMs. It features standardized vision tool interfaces, scalable
trajectory generation for policy initialization, and a flexible training
environment. Furthermore, considering supervised fine-tuning (SFT) on static
demonstrations offers limited policy generalization for dynamic tool
invocation, we propose a novel reinforcement learning (RL) framework V-ToolRL
to train LVLMs to learn adaptive policies for invoking external vision tools.
V-ToolRL enables LVLMs to autonomously discover optimal tool-usage strategies
by directly optimizing for task success using feedback from tool interactions.
We empirically validate V-ToolRL on challenging chart reasoning tasks. Our
RL-trained agent, built upon a Qwen2-VL-2B, significantly outperforms its
SFT-initialized counterpart (+28.83 points) and surpasses established
supervised tool-learning baselines like Taco and CogCom by an average of +12.7
points. Notably, it also surpasses prominent closed-source models like GPT-4.1
by +8.68 accuracy points. We hope OpenThinkIMG can serve as a foundational
framework for advancing dynamic, tool-augmented visual reasoning, helping the
community develop AI agents that can genuinely "think with images".Summary
AI-Generated Summary