R1-Zero의 20억 파라미터 비지도 미세조정 모델에서의 시각적 추론 "아하 모멘트"
R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model
March 7, 2025
저자: Hengguang Zhou, Xirui Li, Ruochen Wang, Minhao Cheng, Tianyi Zhou, Cho-Jui Hsieh
cs.AI
초록
최근 DeepSeek R1은 간단한 규칙 기반 인센티브를 활용한 강화 학습이 대규모 언어 모델에서 복잡한 추론 능력의 자율적 개발을 가능하게 하는 방법을 보여주었으며, 이는 모델이 훈련 중에 자기 반영과 응답 길이 증가를 보이는 "아하 순간"으로 특징지어졌습니다. 그러나 이러한 성공을 다중 모달 추론으로 확장하려는 시도는 종종 이러한 핵심 특성을 재현하지 못했습니다. 본 보고서에서는 비-SFT 2B 모델에서만 다중 모달 추론에 대한 이러한 발현적 특성을 성공적으로 재현한 첫 번째 사례를 소개합니다. Qwen2-VL-2B를 시작점으로 삼고 SAT 데이터셋에 직접 강화 학습을 적용함으로써, 우리의 모델은 CVBench에서 59.47%의 정확도를 달성하여 기본 모델보다 약 30% 우수한 성능을 보였으며, SFT 설정보다도 약 2% 더 높은 성과를 거두었습니다. 또한, 우리는 지시 모델을 사용하여 RL로 R1과 유사한 추론을 달성하려는 시도에서의 실패와 통찰을 공유하며, 관련된 도전 과제에 대한 통찰을 제공하고자 합니다. 주요 관찰 사항은 다음과 같습니다: (1) 지시 모델에 RL을 적용하면 종종 사소한 추론 궤적이 발생하며, (2) 단순한 길이 보상은 추론 능력을 유도하는 데 효과적이지 않습니다. 프로젝트 코드는 https://github.com/turningpoint-ai/VisualThinker-R1-Zero에서 확인할 수 있습니다.
English
Recently DeepSeek R1 demonstrated how reinforcement learning with simple
rule-based incentives can enable autonomous development of complex reasoning in
large language models, characterized by the "aha moment", in which the model
manifest self-reflection and increased response length during training.
However, attempts to extend this success to multimodal reasoning often failed
to reproduce these key characteristics. In this report, we present the first
successful replication of these emergent characteristics for multimodal
reasoning on only a non-SFT 2B model. Starting with Qwen2-VL-2B and applying
reinforcement learning directly on the SAT dataset, our model achieves 59.47%
accuracy on CVBench, outperforming the base model by approximately ~30% and
exceeding both SFT setting by ~2%. In addition, we share our failed attempts
and insights in attempting to achieve R1-like reasoning using RL with instruct
models. aiming to shed light on the challenges involved. Our key observations
include: (1) applying RL on instruct model often results in trivial reasoning
trajectories, and (2) naive length reward are ineffective in eliciting
reasoning capabilities. The project code is available at
https://github.com/turningpoint-ai/VisualThinker-R1-ZeroSummary
AI-Generated Summary