R1-Zeros „Aha-Moment“ beim visuellen Schließen in einem 2B Non-SFT-Modell
R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model
March 7, 2025
Autoren: Hengguang Zhou, Xirui Li, Ruochen Wang, Minhao Cheng, Tianyi Zhou, Cho-Jui Hsieh
cs.AI
Zusammenfassung
Kürzlich hat DeepSeek R1 gezeigt, wie Verstärkungslernen mit einfachen regelbasierten Anreizen die autonome Entwicklung komplexer Denkprozesse in großen Sprachmodellen ermöglichen kann, gekennzeichnet durch den „Aha-Moment“, in dem das Modell Selbstreflexion und eine erhöhte Antwortlänge während des Trainings zeigt. Versuche, diesen Erfolg auf multimodales Denken auszuweiten, scheiterten jedoch oft daran, diese Schlüsselmerkmale zu reproduzieren. In diesem Bericht präsentieren wir die erste erfolgreiche Replikation dieser emergenten Merkmale für multimodales Denken mit einem reinen Non-SFT-2B-Modell. Ausgehend von Qwen2-VL-2B und der direkten Anwendung von Verstärkungslernen auf den SAT-Datensatz erreicht unser Modell eine Genauigkeit von 59,47 % auf CVBench, übertrifft das Basismodell um etwa ~30 % und übersteigt beide SFT-Einstellungen um ~2 %. Zudem teilen wir unsere gescheiterten Versuche und Erkenntnisse bei dem Bemühen, R1-ähnliches Denken mit RL in Instruktionsmodellen zu erreichen, um die damit verbundenen Herausforderungen zu beleuchten. Unsere wichtigsten Beobachtungen umfassen: (1) Die Anwendung von RL auf Instruktionsmodelle führt oft zu trivialen Denkpfaden, und (2) naive Längenbelohnungen sind unwirksam, um Denkfähigkeiten zu fördern. Der Projektcode ist verfügbar unter https://github.com/turningpoint-ai/VisualThinker-R1-Zero.
English
Recently DeepSeek R1 demonstrated how reinforcement learning with simple
rule-based incentives can enable autonomous development of complex reasoning in
large language models, characterized by the "aha moment", in which the model
manifest self-reflection and increased response length during training.
However, attempts to extend this success to multimodal reasoning often failed
to reproduce these key characteristics. In this report, we present the first
successful replication of these emergent characteristics for multimodal
reasoning on only a non-SFT 2B model. Starting with Qwen2-VL-2B and applying
reinforcement learning directly on the SAT dataset, our model achieves 59.47%
accuracy on CVBench, outperforming the base model by approximately ~30% and
exceeding both SFT setting by ~2%. In addition, we share our failed attempts
and insights in attempting to achieve R1-like reasoning using RL with instruct
models. aiming to shed light on the challenges involved. Our key observations
include: (1) applying RL on instruct model often results in trivial reasoning
trajectories, and (2) naive length reward are ineffective in eliciting
reasoning capabilities. The project code is available at
https://github.com/turningpoint-ai/VisualThinker-R1-ZeroSummary
AI-Generated Summary