ChatPaper.aiChatPaper

R1-Zeroの2B非SFTモデルにおける視覚的推論における「ひらめきの瞬間」

R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model

March 7, 2025
著者: Hengguang Zhou, Xirui Li, Ruochen Wang, Minhao Cheng, Tianyi Zhou, Cho-Jui Hsieh
cs.AI

要旨

最近、DeepSeek R1は、シンプルなルールベースのインセンティブを用いた強化学習が、大規模言語モデルにおける複雑な推論能力の自律的発達を可能にし、「アハ体験」として特徴づけられる現象、すなわちトレーニング中にモデルが自己反省を示し、応答長が増加することを実証しました。しかし、この成功をマルチモーダル推論に拡張しようとする試みは、これらの重要な特性を再現することにしばしば失敗していました。本報告では、非SFTの2Bモデルにおいて、マルチモーダル推論におけるこれらの創発的特性の初めての成功した再現を提示します。Qwen2-VL-2Bを出発点として、SATデータセットに直接強化学習を適用することで、我々のモデルはCVBenchにおいて59.47%の精度を達成し、ベースモデルを約30%上回り、SFT設定を約2%超える結果を示しました。さらに、指示モデルを用いたRLによるR1のような推論能力の実現を試みた失敗例と洞察を共有し、関連する課題に光を当てることを目指します。我々の主な観察点は以下の通りです:(1) 指示モデルにRLを適用すると、しばしば取るに足らない推論軌道が生じること、(2) 単純な長さの報酬は推論能力を引き出すのに効果的でないこと。プロジェクトのコードはhttps://github.com/turningpoint-ai/VisualThinker-R1-Zeroで公開されています。
English
Recently DeepSeek R1 demonstrated how reinforcement learning with simple rule-based incentives can enable autonomous development of complex reasoning in large language models, characterized by the "aha moment", in which the model manifest self-reflection and increased response length during training. However, attempts to extend this success to multimodal reasoning often failed to reproduce these key characteristics. In this report, we present the first successful replication of these emergent characteristics for multimodal reasoning on only a non-SFT 2B model. Starting with Qwen2-VL-2B and applying reinforcement learning directly on the SAT dataset, our model achieves 59.47% accuracy on CVBench, outperforming the base model by approximately ~30% and exceeding both SFT setting by ~2%. In addition, we share our failed attempts and insights in attempting to achieve R1-like reasoning using RL with instruct models. aiming to shed light on the challenges involved. Our key observations include: (1) applying RL on instruct model often results in trivial reasoning trajectories, and (2) naive length reward are ineffective in eliciting reasoning capabilities. The project code is available at https://github.com/turningpoint-ai/VisualThinker-R1-Zero

Summary

AI-Generated Summary

PDF582March 10, 2025