OpenVLThinker: Un'esplorazione iniziale del ragionamento complesso visione-linguaggio attraverso il miglioramento iterativo autonomo
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement
March 21, 2025
Autori: Yihe Deng, Hritik Bansal, Fan Yin, Nanyun Peng, Wei Wang, Kai-Wei Chang
cs.AI
Abstract
I recenti progressi dimostrati da DeepSeek-R1 hanno mostrato che le capacità di ragionamento complesso nei grandi modelli linguistici (LLM), inclusi comportamenti sofisticati come l'autoverifica e l'autocorrezione, possono essere raggiunti attraverso il Reinforcement Learning (RL) con ricompense verificabili, migliorando significativamente le prestazioni del modello su compiti impegnativi come l'AIME. Motivati da questi risultati, il nostro studio indaga se capacità di ragionamento simili possano essere integrate con successo nei grandi modelli visione-linguaggio (LVLM) e valuta il loro impatto su compiti impegnativi di ragionamento multimodale. Consideriamo un approccio che sfrutta iterativamente il fine-tuning supervisionato (SFT) su dati di addestramento leggeri e il Reinforcement Learning (RL) per migliorare ulteriormente la generalizzazione del modello. Inizialmente, le capacità di ragionamento sono state distillate dai modelli R1 basati su testo puro generando passaggi di ragionamento utilizzando didascalie di alta qualità delle immagini provenienti da diversi dataset visivi. Successivamente, l'addestramento iterativo con RL ha ulteriormente migliorato le capacità di ragionamento, con il modello migliorato da RL in ogni iterazione che genera dataset SFT raffinati per il round successivo. Questo processo iterativo ha prodotto OpenVLThinker, un LVLM che mostra un miglioramento costante nelle prestazioni di ragionamento su benchmark impegnativi come MathVista, MathVerse e MathVision, dimostrando il potenziale della nostra strategia per un robusto ragionamento visione-linguaggio. Il codice, il modello e i dati sono disponibili su https://github.com/yihedeng9/OpenVLThinker.
English
Recent advancements demonstrated by DeepSeek-R1 have shown that complex
reasoning abilities in large language models (LLMs), including sophisticated
behaviors such as self-verification and self-correction, can be achieved by RL
with verifiable rewards and significantly improves model performance on
challenging tasks such as AIME. Motivated by these findings, our study
investigates whether similar reasoning capabilities can be successfully
integrated into large vision-language models (LVLMs) and assesses their impact
on challenging multimodal reasoning tasks. We consider an approach that
iteratively leverages supervised fine-tuning (SFT) on lightweight training data
and Reinforcement Learning (RL) to further improve model generalization.
Initially, reasoning capabilities were distilled from pure-text R1 models by
generating reasoning steps using high-quality captions of the images sourced
from diverse visual datasets. Subsequently, iterative RL training further
enhance reasoning skills, with each iteration's RL-improved model generating
refined SFT datasets for the next round. This iterative process yielded
OpenVLThinker, a LVLM exhibiting consistently improved reasoning performance on
challenging benchmarks such as MathVista, MathVerse, and MathVision,
demonstrating the potential of our strategy for robust vision-language
reasoning. The code, model and data are held at
https://github.com/yihedeng9/OpenVLThinker.