S^2R: Обучение крупных языковых моделей самопроверке и самокоррекции с использованием обучения с подкреплением
S^2R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning
February 18, 2025
Авторы: Ruotian Ma, Peisong Wang, Cheng Liu, Xingyan Liu, Jiaqi Chen, Bang Zhang, Xin Zhou, Nan Du, Jia Li
cs.AI
Аннотация
Недавние исследования продемонстрировали эффективность масштабирования языковых моделей (LLM) во время тестирования. Однако существующие подходы для стимулирования глубоких мыслительных способностей LLM, как правило, требуют больших объемов данных или значительных усилий по обучению. В то же время остается неясным, как улучшить мыслительные способности менее мощных базовых моделей. В данной работе мы представляем S^2R — эффективную структуру, которая улучшает рассуждения LLM, обучая модели самопроверке и самокоррекции в процессе вывода. В частности, мы сначала инициализируем LLM с поведением итеративной самопроверки и самокоррекции с помощью контролируемого тонкого обучения на тщательно отобранных данных. Затем навыки самопроверки и самокоррекции дополнительно укрепляются с помощью обучения с подкреплением как на уровне результатов, так и на уровне процесса, с минимальными требованиями к ресурсам, что позволяет модели адаптивно улучшать процесс рассуждений во время вывода. Наши результаты показывают, что с использованием всего 3,1 тыс. образцов для инициализации поведения самопроверки и самокоррекции модель Qwen2.5-math-7B достигает улучшения точности с 51,0\% до 81,6\%, превосходя модели, обученные на эквивалентном объеме данных, полученных с помощью длинной цепочки рассуждений (long-CoT). Многочисленные эксперименты и анализ, проведенные на трех базовых моделях как на внутридоменных, так и на внедоменных тестах, подтверждают эффективность S^2R. Наш код и данные доступны по адресу https://github.com/NineAbyss/S2R.
English
Recent studies have demonstrated the effectiveness of LLM test-time scaling.
However, existing approaches to incentivize LLMs' deep thinking abilities
generally require large-scale data or significant training efforts. Meanwhile,
it remains unclear how to improve the thinking abilities of less powerful base
models. In this work, we introduce S^2R, an efficient framework that enhances
LLM reasoning by teaching models to self-verify and self-correct during
inference. Specifically, we first initialize LLMs with iterative
self-verification and self-correction behaviors through supervised fine-tuning
on carefully curated data. The self-verification and self-correction skills are
then further strengthened by both outcome-level and process-level reinforcement
learning, with minimized resource requirements, enabling the model to
adaptively refine its reasoning process during inference. Our results
demonstrate that, with only 3.1k self-verifying and self-correcting behavior
initialization samples, Qwen2.5-math-7B achieves an accuracy improvement from
51.0\% to 81.6\%, outperforming models trained on an equivalent amount of
long-CoT distilled data. Extensive experiments and analysis based on three base
models across both in-domain and out-of-domain benchmarks validate the
effectiveness of S^2R. Our code and data are available at
https://github.com/NineAbyss/S2R.Summary
AI-Generated Summary