R1-Zero's "Aha-moment" in visueel redeneren op een 2B Non-SFT-model
R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model
March 7, 2025
Auteurs: Hengguang Zhou, Xirui Li, Ruochen Wang, Minhao Cheng, Tianyi Zhou, Cho-Jui Hsieh
cs.AI
Samenvatting
Onlangs heeft DeepSeek R1 aangetoond hoe reinforcement learning met eenvoudige
op regels gebaseerde prikkels de autonome ontwikkeling van complex redeneren in
grote taalmodellen kan mogelijk maken, gekenmerkt door het "aha-moment", waarin het model
zelfreflectie en een toename van de responslengte vertoont tijdens de training.
Pogingen om dit succes uit te breiden naar multimodaal redeneren slaagden echter vaak niet
om deze sleutelkenmerken te reproduceren. In dit rapport presenteren we de eerste
succesvolle replicatie van deze opkomende kenmerken voor multimodaal
redeneren op slechts een niet-SFT 2B-model. Beginnend met Qwen2-VL-2B en het toepassen
van reinforcement learning direct op de SAT-dataset, behaalt ons model een nauwkeurigheid van 59,47%
op CVBench, wat het basismodel met ongeveer ~30% overtreft en
beide SFT-instellingen met ~2% overschrijdt. Daarnaast delen we onze mislukte pogingen
en inzichten bij het proberen om R1-achtig redeneren te bereiken met behulp van RL met instruct
modellen, met als doel de betrokken uitdagingen te belichten. Onze belangrijkste observaties
omvatten: (1) het toepassen van RL op instructiemodellen resulteert vaak in triviale redeneertrajecten, en (2) naïeve lengtebeloningen zijn niet effectief in het uitlokken
van redeneervaardigheden. De projectcode is beschikbaar op
https://github.com/turningpoint-ai/VisualThinker-R1-Zero
English
Recently DeepSeek R1 demonstrated how reinforcement learning with simple
rule-based incentives can enable autonomous development of complex reasoning in
large language models, characterized by the "aha moment", in which the model
manifest self-reflection and increased response length during training.
However, attempts to extend this success to multimodal reasoning often failed
to reproduce these key characteristics. In this report, we present the first
successful replication of these emergent characteristics for multimodal
reasoning on only a non-SFT 2B model. Starting with Qwen2-VL-2B and applying
reinforcement learning directly on the SAT dataset, our model achieves 59.47%
accuracy on CVBench, outperforming the base model by approximately ~30% and
exceeding both SFT setting by ~2%. In addition, we share our failed attempts
and insights in attempting to achieve R1-like reasoning using RL with instruct
models. aiming to shed light on the challenges involved. Our key observations
include: (1) applying RL on instruct model often results in trivial reasoning
trajectories, and (2) naive length reward are ineffective in eliciting
reasoning capabilities. The project code is available at
https://github.com/turningpoint-ai/VisualThinker-R1-ZeroSummary
AI-Generated Summary