OpenThinkIMG: Leren denken met beelden via visueel gereedschap Versterkend Leren
OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning
May 13, 2025
Auteurs: Zhaochen Su, Linjie Li, Mingyang Song, Yunzhuo Hao, Zhengyuan Yang, Jun Zhang, Guanjie Chen, Jiawei Gu, Juntao Li, Xiaoye Qu, Yu Cheng
cs.AI
Samenvatting
Terwijl mensen flexibel gebruik kunnen maken van interactieve visuele cognitie voor complexe probleemoplossing, blijft het een uitdaging om Large Vision-Language Models (LVLMs) op een vergelijkbare manier adaptief gedrag aan te leren met visuele tools. Een belangrijke hindernis is het huidige gebrek aan gestandaardiseerde infrastructuur, wat de integratie van diverse tools, het genereren van rijke interactiedata en het effectief trainen van robuuste agents belemmert. Om deze tekortkomingen aan te pakken, introduceren we OpenThinkIMG, het eerste open-source, uitgebreide end-to-end framework voor tool-augmented LVLMs. Het beschikt over gestandaardiseerde visuele tool-interfaces, schaalbare trajectgeneratie voor beleidsinitialisatie en een flexibele trainingsomgeving. Bovendien, gezien het feit dat supervised fine-tuning (SFT) op statische demonstraties beperkte beleidsgeneralizatie biedt voor dynamische tool-aanroeping, stellen we een nieuw reinforcement learning (RL) framework voor, genaamd V-ToolRL, om LVLMs te trainen in het leren van adaptieve beleidsregels voor het aanroepen van externe visuele tools. V-ToolRL stelt LVLMs in staat om autonoom optimale tool-gebruiksstrategieën te ontdekken door direct te optimaliseren voor taaksucces met behulp van feedback van tool-interacties. We valideren V-ToolRL empirisch op uitdagende grafiekredeneertaken. Onze RL-getrainde agent, gebouwd op een Qwen2-VL-2B, presteert aanzienlijk beter dan zijn SFT-geïnitialiseerde tegenhanger (+28,83 punten) en overtreft gevestigde supervised tool-learning baselines zoals Taco en CogCom gemiddeld met +12,7 punten. Opmerkelijk is dat het ook prominente closed-source modellen zoals GPT-4.1 overtreft met +8,68 nauwkeurigheidspunten. We hopen dat OpenThinkIMG kan dienen als een fundamenteel framework voor het bevorderen van dynamische, tool-augmented visuele redenering, en de gemeenschap kan helpen bij het ontwikkelen van AI-agents die daadwerkelijk "kunnen denken met beelden".
English
While humans can flexibly leverage interactive visual cognition for complex
problem-solving, enabling Large Vision-Language Models (LVLMs) to learn
similarly adaptive behaviors with visual tools remains challenging. A
significant hurdle is the current lack of standardized infrastructure, which
hinders integrating diverse tools, generating rich interaction data, and
training robust agents effectively. To address these gaps, we introduce
OpenThinkIMG, the first open-source, comprehensive end-to-end framework for
tool-augmented LVLMs. It features standardized vision tool interfaces, scalable
trajectory generation for policy initialization, and a flexible training
environment. Furthermore, considering supervised fine-tuning (SFT) on static
demonstrations offers limited policy generalization for dynamic tool
invocation, we propose a novel reinforcement learning (RL) framework V-ToolRL
to train LVLMs to learn adaptive policies for invoking external vision tools.
V-ToolRL enables LVLMs to autonomously discover optimal tool-usage strategies
by directly optimizing for task success using feedback from tool interactions.
We empirically validate V-ToolRL on challenging chart reasoning tasks. Our
RL-trained agent, built upon a Qwen2-VL-2B, significantly outperforms its
SFT-initialized counterpart (+28.83 points) and surpasses established
supervised tool-learning baselines like Taco and CogCom by an average of +12.7
points. Notably, it also surpasses prominent closed-source models like GPT-4.1
by +8.68 accuracy points. We hope OpenThinkIMG can serve as a foundational
framework for advancing dynamic, tool-augmented visual reasoning, helping the
community develop AI agents that can genuinely "think with images".