ChatPaper.aiChatPaper

OpenThinkIMG: Apprendere a Pensare con le Immagini attraverso il Rinforzo degli Strumenti Visivi

OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning

May 13, 2025
Autori: Zhaochen Su, Linjie Li, Mingyang Song, Yunzhuo Hao, Zhengyuan Yang, Jun Zhang, Guanjie Chen, Jiawei Gu, Juntao Li, Xiaoye Qu, Yu Cheng
cs.AI

Abstract

Mentre gli esseri umani possono sfruttare in modo flessibile la cognizione visiva interattiva per risolvere problemi complessi, abilitare i Modelli Linguistico-Visuali di Grande Scala (LVLM) a imparare comportamenti adattivi simili con strumenti visivi rimane una sfida. Un ostacolo significativo è l'attuale mancanza di infrastrutture standardizzate, che ostacola l'integrazione di strumenti diversificati, la generazione di dati di interazione ricchi e l'addestramento efficace di agenti robusti. Per colmare queste lacune, introduciamo OpenThinkIMG, il primo framework open-source, completo e end-to-end per LVLM potenziati da strumenti. Esso presenta interfacce standardizzate per strumenti visivi, generazione scalabile di traiettorie per l'inizializzazione delle politiche e un ambiente di addestramento flessibile. Inoltre, considerando che l'ottimizzazione supervisionata (SFT) su dimostrazioni statiche offre una generalizzazione limitata delle politiche per l'invocazione dinamica di strumenti, proponiamo un nuovo framework di apprendimento per rinforzo (RL) chiamato V-ToolRL per addestrare gli LVLM a imparare politiche adattive per l'invocazione di strumenti visivi esterni. V-ToolRL consente agli LVLM di scoprire autonomamente strategie ottimali di utilizzo degli strumenti ottimizzando direttamente per il successo del compito utilizzando il feedback dalle interazioni con gli strumenti. Validiamo empiricamente V-ToolRL su compiti impegnativi di ragionamento su grafici. Il nostro agente addestrato con RL, basato su un Qwen2-VL-2B, supera significativamente la sua controparte inizializzata con SFT (+28,83 punti) e supera i benchmark stabiliti per l'apprendimento supervisionato con strumenti come Taco e CogCom di una media di +12,7 punti. Inoltre, supera anche modelli closed-source di rilievo come GPT-4.1 di +8,68 punti di accuratezza. Speriamo che OpenThinkIMG possa servire come framework di base per avanzare il ragionamento visivo dinamico potenziato da strumenti, aiutando la comunità a sviluppare agenti di IA che possano veramente "pensare con le immagini".
English
While humans can flexibly leverage interactive visual cognition for complex problem-solving, enabling Large Vision-Language Models (LVLMs) to learn similarly adaptive behaviors with visual tools remains challenging. A significant hurdle is the current lack of standardized infrastructure, which hinders integrating diverse tools, generating rich interaction data, and training robust agents effectively. To address these gaps, we introduce OpenThinkIMG, the first open-source, comprehensive end-to-end framework for tool-augmented LVLMs. It features standardized vision tool interfaces, scalable trajectory generation for policy initialization, and a flexible training environment. Furthermore, considering supervised fine-tuning (SFT) on static demonstrations offers limited policy generalization for dynamic tool invocation, we propose a novel reinforcement learning (RL) framework V-ToolRL to train LVLMs to learn adaptive policies for invoking external vision tools. V-ToolRL enables LVLMs to autonomously discover optimal tool-usage strategies by directly optimizing for task success using feedback from tool interactions. We empirically validate V-ToolRL on challenging chart reasoning tasks. Our RL-trained agent, built upon a Qwen2-VL-2B, significantly outperforms its SFT-initialized counterpart (+28.83 points) and surpasses established supervised tool-learning baselines like Taco and CogCom by an average of +12.7 points. Notably, it also surpasses prominent closed-source models like GPT-4.1 by +8.68 accuracy points. We hope OpenThinkIMG can serve as a foundational framework for advancing dynamic, tool-augmented visual reasoning, helping the community develop AI agents that can genuinely "think with images".
PDF423May 16, 2025