ChatPaper.aiChatPaper

O "Momento Eureka" do R1-Zero no Raciocínio Visual em um Modelo de 2B Sem Ajuste Supervisionado (Non-SFT)

R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model

March 7, 2025
Autores: Hengguang Zhou, Xirui Li, Ruochen Wang, Minhao Cheng, Tianyi Zhou, Cho-Jui Hsieh
cs.AI

Resumo

Recentemente, o DeepSeek R1 demonstrou como o aprendizado por reforço com incentivos simples baseados em regras pode permitir o desenvolvimento autônomo de raciocínio complexo em grandes modelos de linguagem, caracterizado pelo "momento eureka", no qual o modelo manifesta autorreflexão e aumento no comprimento das respostas durante o treinamento. No entanto, tentativas de estender esse sucesso para o raciocínio multimodal frequentemente falharam em reproduzir essas características-chave. Neste relatório, apresentamos a primeira replicação bem-sucedida dessas características emergentes para o raciocínio multimodal em um modelo de apenas 2B sem ajuste fino supervisionado (SFT). Começando com o Qwen2-VL-2B e aplicando o aprendizado por reforço diretamente no conjunto de dados SAT, nosso modelo alcança 59,47% de precisão no CVBench, superando o modelo base em aproximadamente ~30% e excedendo ambos os cenários de SFT em ~2%. Além disso, compartilhamos nossas tentativas fracassadas e insights ao tentar alcançar um raciocínio semelhante ao R1 usando aprendizado por reforço com modelos de instrução, com o objetivo de esclarecer os desafios envolvidos. Nossas principais observações incluem: (1) a aplicação de RL em modelos de instrução frequentemente resulta em trajetórias de raciocínio triviais, e (2) recompensas ingênuas baseadas no comprimento são ineficazes para eliciar capacidades de raciocínio. O código do projeto está disponível em https://github.com/turningpoint-ai/VisualThinker-R1-Zero.
English
Recently DeepSeek R1 demonstrated how reinforcement learning with simple rule-based incentives can enable autonomous development of complex reasoning in large language models, characterized by the "aha moment", in which the model manifest self-reflection and increased response length during training. However, attempts to extend this success to multimodal reasoning often failed to reproduce these key characteristics. In this report, we present the first successful replication of these emergent characteristics for multimodal reasoning on only a non-SFT 2B model. Starting with Qwen2-VL-2B and applying reinforcement learning directly on the SAT dataset, our model achieves 59.47% accuracy on CVBench, outperforming the base model by approximately ~30% and exceeding both SFT setting by ~2%. In addition, we share our failed attempts and insights in attempting to achieve R1-like reasoning using RL with instruct models. aiming to shed light on the challenges involved. Our key observations include: (1) applying RL on instruct model often results in trivial reasoning trajectories, and (2) naive length reward are ineffective in eliciting reasoning capabilities. The project code is available at https://github.com/turningpoint-ai/VisualThinker-R1-Zero

Summary

AI-Generated Summary

PDF582March 10, 2025