Il "momento di intuizione" di R1-Zero nel ragionamento visivo su un modello Non-SFT da 2 miliardi di parametri
R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model
March 7, 2025
Autori: Hengguang Zhou, Xirui Li, Ruochen Wang, Minhao Cheng, Tianyi Zhou, Cho-Jui Hsieh
cs.AI
Abstract
Recentemente, DeepSeek R1 ha dimostrato come l'apprendimento per rinforzo con incentivi basati su regole semplici possa consentire lo sviluppo autonomo di ragionamenti complessi nei grandi modelli linguistici, caratterizzati dal "momento di intuizione", in cui il modello manifesta auto-riflessione e un aumento della lunghezza delle risposte durante l'addestramento. Tuttavia, i tentativi di estendere questo successo al ragionamento multimodale spesso non sono riusciti a riprodurre queste caratteristiche chiave. In questo rapporto, presentiamo la prima replica riuscita di queste caratteristiche emergenti per il ragionamento multimodale su un modello non-SFT da 2B. Partendo da Qwen2-VL-2B e applicando direttamente l'apprendimento per rinforzo sul dataset SAT, il nostro modello raggiunge un'accuratezza del 59,47% su CVBench, superando il modello base di circa il 30% e superando entrambe le impostazioni SFT di circa il 2%. Inoltre, condividiamo i nostri tentativi falliti e le intuizioni ottenute nel tentativo di ottenere un ragionamento simile a R1 utilizzando l'apprendimento per rinforzo con modelli di istruzione, con l'obiettivo di far luce sulle sfide coinvolte. Le nostre osservazioni chiave includono: (1) l'applicazione dell'apprendimento per rinforzo su modelli di istruzione spesso porta a traiettorie di ragionamento banali, e (2) le ricompense basate sulla lunghezza in modo ingenuo sono inefficaci nel suscitare capacità di ragionamento. Il codice del progetto è disponibile all'indirizzo https://github.com/turningpoint-ai/VisualThinker-R1-Zero.
English
Recently DeepSeek R1 demonstrated how reinforcement learning with simple
rule-based incentives can enable autonomous development of complex reasoning in
large language models, characterized by the "aha moment", in which the model
manifest self-reflection and increased response length during training.
However, attempts to extend this success to multimodal reasoning often failed
to reproduce these key characteristics. In this report, we present the first
successful replication of these emergent characteristics for multimodal
reasoning on only a non-SFT 2B model. Starting with Qwen2-VL-2B and applying
reinforcement learning directly on the SAT dataset, our model achieves 59.47%
accuracy on CVBench, outperforming the base model by approximately ~30% and
exceeding both SFT setting by ~2%. In addition, we share our failed attempts
and insights in attempting to achieve R1-like reasoning using RL with instruct
models. aiming to shed light on the challenges involved. Our key observations
include: (1) applying RL on instruct model often results in trivial reasoning
trajectories, and (2) naive length reward are ineffective in eliciting
reasoning capabilities. The project code is available at
https://github.com/turningpoint-ai/VisualThinker-R1-ZeroSummary
AI-Generated Summary