Часть I: Уловки или ловушки? Глубокий анализ обучения с подкреплением для рассуждений в больших языковых моделях
Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning
August 11, 2025
Авторы: Zihe Liu, Jiashun Liu, Yancheng He, Weixun Wang, Jiaheng Liu, Ling Pan, Xinyu Hu, Shaopan Xiong, Ju Huang, Jian Hu, Shengyi Huang, Siran Yang, Jiamang Wang, Wenbo Su, Bo Zheng
cs.AI
Аннотация
Обучение с подкреплением (RL) для рассуждений в больших языковых моделях (LLM) быстро стало важной областью исследований, что подтверждается значительным ростом числа связанных работ как в области алгоритмических инноваций, так и практических приложений. Несмотря на этот прогресс, сохраняется ряд критических проблем, включая отсутствие стандартизированных руководств по применению методов RL и фрагментированное понимание их базовых механизмов. Кроме того, неоднородные экспериментальные условия, различия в обучающих данных и инициализации моделей привели к противоречивым выводам, что затрудняет понимание ключевых характеристик этих методов и создает путаницу среди практиков при выборе подходящих подходов. В данной работе проводится систематический обзор широко используемых методов RL на основе строгого воспроизведения и изолированной оценки в рамках единой открытой платформы. Мы анализируем внутренние механизмы, применимые сценарии и основные принципы каждого метода с помощью детализированных экспериментов, включая наборы данных различной сложности, размеры моделей и архитектуры. На основе этих данных мы предлагаем четкие рекомендации по выбору методов RL, адаптированных к конкретным условиям, и предоставляем надежный план действий для практиков, работающих в области RL для LLM. Наконец, мы показываем, что минималистичная комбинация двух методов позволяет раскрыть обучаемость стратегий без критиков с использованием стандартной функции потерь PPO. Результаты демонстрируют, что наша простая комбинация стабильно улучшает производительность, превосходя стратегии, такие как GRPO и DAPO.
English
Reinforcement learning for LLM reasoning has rapidly emerged as a prominent
research area, marked by a significant surge in related studies on both
algorithmic innovations and practical applications. Despite this progress,
several critical challenges remain, including the absence of standardized
guidelines for employing RL techniques and a fragmented understanding of their
underlying mechanisms. Additionally, inconsistent experimental settings,
variations in training data, and differences in model initialization have led
to conflicting conclusions, obscuring the key characteristics of these
techniques and creating confusion among practitioners when selecting
appropriate techniques. This paper systematically reviews widely adopted RL
techniques through rigorous reproductions and isolated evaluations within a
unified open-source framework. We analyze the internal mechanisms, applicable
scenarios, and core principles of each technique through fine-grained
experiments, including datasets of varying difficulty, model sizes, and
architectures. Based on these insights, we present clear guidelines for
selecting RL techniques tailored to specific setups, and provide a reliable
roadmap for practitioners navigating the RL for the LLM domain. Finally, we
reveal that a minimalist combination of two techniques can unlock the learning
capability of critic-free policies using vanilla PPO loss. The results
demonstrate that our simple combination consistently improves performance,
surpassing strategies like GRPO and DAPO.