Развитие мультимодального мышления с помощью обучения с подкреплением при холодном старте
Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start
May 28, 2025
Авторы: Lai Wei, Yuting Li, Kaipeng Zheng, Chen Wang, Yue Wang, Linghe Kong, Lichao Sun, Weiran Huang
cs.AI
Аннотация
Последние достижения в области больших языковых моделей (LLM) продемонстрировали впечатляющие способности к цепочечному рассуждению, где обучение с подкреплением (RL) сыграло ключевую роль в этом прогрессе. Хотя паттерны "моментов озарения" — когда модели демонстрируют самокоррекцию через рефлексию — часто связывают с возникающими свойствами RL, мы впервые показываем, что эти паттерны существуют в мультимодальных LLM (MLLM) до обучения RL, но не обязательно коррелируют с улучшением качества рассуждений. Опираясь на эти наблюдения, мы представляем всестороннее исследование по улучшению мультимодального рассуждения с помощью двухэтапного подхода: (1) контролируемая тонкая настройка (SFT) в качестве "холодного старта" с использованием структурированных паттернов цепочечного рассуждения, за которой следует (2) обучение с подкреплением через GRPO для дальнейшего совершенствования этих способностей. Наши масштабные эксперименты показывают, что этот комбинированный подход стабильно превосходит методы, использующие только SFT или только RL, на сложных мультимодальных бенчмарках. Полученные модели достигают наилучших результатов среди открытых MLLM как на масштабах 3B, так и 7B, причем наша модель 7B демонстрирует значительные улучшения по сравнению с базовыми моделями (например, 66.3 %rightarrow73.4 % на MathVista, 62.9 %rightarrow70.4 % на We-Math), а наша модель 3B показывает результаты, сопоставимые с несколькими моделями 7B. В целом, эта работа предоставляет практические рекомендации для создания продвинутых моделей мультимодального рассуждения. Наш код доступен по адресу https://github.com/waltonfuture/RL-with-Cold-Start.
English
Recent advancements in large language models (LLMs) have demonstrated
impressive chain-of-thought reasoning capabilities, with reinforcement learning
(RL) playing a crucial role in this progress. While "aha moment"
patterns--where models exhibit self-correction through reflection--are often
attributed to emergent properties from RL, we first demonstrate that these
patterns exist in multimodal LLMs (MLLMs) prior to RL training but may not
necessarily correlate with improved reasoning performance. Building on these
insights, we present a comprehensive study on enhancing multimodal reasoning
through a two-stage approach: (1) supervised fine-tuning (SFT) as a cold start
with structured chain-of-thought reasoning patterns, followed by (2)
reinforcement learning via GRPO to further refine these capabilities. Our
extensive experiments show that this combined approach consistently outperforms
both SFT-only and RL-only methods across challenging multimodal reasoning
benchmarks. The resulting models achieve state-of-the-art performance among
open-source MLLMs at both 3B and 7B scales, with our 7B model showing
substantial improvements over base models (e.g., 66.3 %rightarrow73.4 % on
MathVista, 62.9 %rightarrow70.4 % on We-Math) and our 3B model achieving
performance competitive with several 7B models. Overall, this work provides
practical guidance for building advanced multimodal reasoning models. Our code
is available at https://github.com/waltonfuture/RL-with-Cold-Start.Summary
AI-Generated Summary