ChatPaper.aiChatPaper

Le moment de révélation de R1-Zero dans le raisonnement visuel sur un modèle Non-SFT de 2 milliards de paramètres

R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model

March 7, 2025
Auteurs: Hengguang Zhou, Xirui Li, Ruochen Wang, Minhao Cheng, Tianyi Zhou, Cho-Jui Hsieh
cs.AI

Résumé

Récemment, DeepSeek R1 a démontré comment l'apprentissage par renforcement avec des incitations simples basées sur des règles peut permettre le développement autonome de raisonnements complexes dans les grands modèles de langage, caractérisé par le "moment eurêka", où le modèle manifeste une auto-réflexion et une augmentation de la longueur des réponses pendant l'entraînement. Cependant, les tentatives d'étendre ce succès au raisonnement multimodal ont souvent échoué à reproduire ces caractéristiques clés. Dans ce rapport, nous présentons la première réplication réussie de ces caractéristiques émergentes pour le raisonnement multimodal sur un modèle non-SFT de 2 milliards de paramètres. En partant de Qwen2-VL-2B et en appliquant directement l'apprentissage par renforcement sur le jeu de données SAT, notre modèle atteint une précision de 59,47 % sur CVBench, surpassant le modèle de base d'environ 30 % et dépassant les configurations SFT de près de 2 %. De plus, nous partageons nos tentatives infructueuses et nos insights dans la quête d'un raisonnement similaire à R1 en utilisant l'apprentissage par renforcement avec des modèles d'instruction, dans le but d'éclairer les défis rencontrés. Nos observations clés incluent : (1) l'application de l'apprentissage par renforcement sur des modèles d'instruction aboutit souvent à des trajectoires de raisonnement triviales, et (2) les récompenses naïves basées sur la longueur sont inefficaces pour susciter des capacités de raisonnement. Le code du projet est disponible à l'adresse suivante : https://github.com/turningpoint-ai/VisualThinker-R1-Zero.
English
Recently DeepSeek R1 demonstrated how reinforcement learning with simple rule-based incentives can enable autonomous development of complex reasoning in large language models, characterized by the "aha moment", in which the model manifest self-reflection and increased response length during training. However, attempts to extend this success to multimodal reasoning often failed to reproduce these key characteristics. In this report, we present the first successful replication of these emergent characteristics for multimodal reasoning on only a non-SFT 2B model. Starting with Qwen2-VL-2B and applying reinforcement learning directly on the SAT dataset, our model achieves 59.47% accuracy on CVBench, outperforming the base model by approximately ~30% and exceeding both SFT setting by ~2%. In addition, we share our failed attempts and insights in attempting to achieve R1-like reasoning using RL with instruct models. aiming to shed light on the challenges involved. Our key observations include: (1) applying RL on instruct model often results in trivial reasoning trajectories, and (2) naive length reward are ineffective in eliciting reasoning capabilities. The project code is available at https://github.com/turningpoint-ai/VisualThinker-R1-Zero

Summary

AI-Generated Summary

PDF582March 10, 2025