El "Momento Eureka" de R1-Zero en el razonamiento visual con un modelo de 2B sin ajuste fino (Non-SFT)
R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model
March 7, 2025
Autores: Hengguang Zhou, Xirui Li, Ruochen Wang, Minhao Cheng, Tianyi Zhou, Cho-Jui Hsieh
cs.AI
Resumen
Recientemente, DeepSeek R1 demostró cómo el aprendizaje por refuerzo con incentivos simples basados en reglas puede permitir el desarrollo autónomo de razonamiento complejo en modelos de lenguaje grandes, caracterizado por el "momento eureka", en el cual el modelo manifiesta autorreflexión y un aumento en la longitud de las respuestas durante el entrenamiento. Sin embargo, los intentos de extender este éxito al razonamiento multimodal a menudo no lograron reproducir estas características clave. En este informe, presentamos la primera replicación exitosa de estas características emergentes para el razonamiento multimodal en un modelo no-SFT de 2B. Partiendo de Qwen2-VL-2B y aplicando aprendizaje por refuerzo directamente en el conjunto de datos SAT, nuestro modelo alcanza un 59.47% de precisión en CVBench, superando al modelo base en aproximadamente ~30% y excediendo ambos ajustes SFT en ~2%. Además, compartimos nuestros intentos fallidos y reflexiones al intentar lograr un razonamiento similar a R1 utilizando RL con modelos de instrucción, con el objetivo de arrojar luz sobre los desafíos involucrados. Nuestras observaciones clave incluyen: (1) aplicar RL en modelos de instrucción a menudo resulta en trayectorias de razonamiento triviales, y (2) las recompensas ingenuas basadas en longitud son ineficaces para elicitar capacidades de razonamiento. El código del proyecto está disponible en https://github.com/turningpoint-ai/VisualThinker-R1-Zero.
English
Recently DeepSeek R1 demonstrated how reinforcement learning with simple
rule-based incentives can enable autonomous development of complex reasoning in
large language models, characterized by the "aha moment", in which the model
manifest self-reflection and increased response length during training.
However, attempts to extend this success to multimodal reasoning often failed
to reproduce these key characteristics. In this report, we present the first
successful replication of these emergent characteristics for multimodal
reasoning on only a non-SFT 2B model. Starting with Qwen2-VL-2B and applying
reinforcement learning directly on the SAT dataset, our model achieves 59.47%
accuracy on CVBench, outperforming the base model by approximately ~30% and
exceeding both SFT setting by ~2%. In addition, we share our failed attempts
and insights in attempting to achieve R1-like reasoning using RL with instruct
models. aiming to shed light on the challenges involved. Our key observations
include: (1) applying RL on instruct model often results in trivial reasoning
trajectories, and (2) naive length reward are ineffective in eliciting
reasoning capabilities. The project code is available at
https://github.com/turningpoint-ai/VisualThinker-R1-ZeroSummary
AI-Generated Summary