Момент озарения R1-Zero в визуальном рассуждении на 2B модели без обучения с учителем
R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model
March 7, 2025
Авторы: Hengguang Zhou, Xirui Li, Ruochen Wang, Minhao Cheng, Tianyi Zhou, Cho-Jui Hsieh
cs.AI
Аннотация
Недавно DeepSeek R1 продемонстрировал, как обучение с подкреплением с использованием простых правил на основе стимулов может способствовать автономному развитию сложных рассуждений в больших языковых моделях, что характеризуется "моментом озарения", когда модель проявляет саморефлексию и увеличивает длину ответов в процессе обучения. Однако попытки распространить этот успех на мультимодальные рассуждения часто не воспроизводили эти ключевые характеристики. В данном отчете мы представляем первую успешную репликацию этих возникающих характеристик для мультимодальных рассуждений на модели размером всего 2B, не подвергавшейся тонкой настройке (non-SFT). Начиная с Qwen2-VL-2B и применяя обучение с подкреплением непосредственно на наборе данных SAT, наша модель достигает точности 59,47% на CVBench, превосходя базовую модель примерно на ~30% и превышая результаты тонкой настройки на ~2%. Кроме того, мы делимся нашими неудачными попытками и выводами в попытках достичь рассуждений, подобных R1, с использованием обучения с подкреплением на моделях с инструкциями, стремясь пролить свет на связанные с этим вызовы. Наши ключевые наблюдения включают: (1) применение обучения с подкреплением на моделях с инструкциями часто приводит к тривиальным траекториям рассуждений, и (2) наивные награды за длину неэффективны для стимулирования способностей к рассуждению. Код проекта доступен по адресу https://github.com/turningpoint-ai/VisualThinker-R1-Zero.
English
Recently DeepSeek R1 demonstrated how reinforcement learning with simple
rule-based incentives can enable autonomous development of complex reasoning in
large language models, characterized by the "aha moment", in which the model
manifest self-reflection and increased response length during training.
However, attempts to extend this success to multimodal reasoning often failed
to reproduce these key characteristics. In this report, we present the first
successful replication of these emergent characteristics for multimodal
reasoning on only a non-SFT 2B model. Starting with Qwen2-VL-2B and applying
reinforcement learning directly on the SAT dataset, our model achieves 59.47%
accuracy on CVBench, outperforming the base model by approximately ~30% and
exceeding both SFT setting by ~2%. In addition, we share our failed attempts
and insights in attempting to achieve R1-like reasoning using RL with instruct
models. aiming to shed light on the challenges involved. Our key observations
include: (1) applying RL on instruct model often results in trivial reasoning
trajectories, and (2) naive length reward are ineffective in eliciting
reasoning capabilities. The project code is available at
https://github.com/turningpoint-ai/VisualThinker-R1-ZeroSummary
AI-Generated Summary