ChatPaper.aiChatPaper

О предсказуемости динамики обучения с подкреплением для крупных языковых моделей

On Predictability of Reinforcement Learning Dynamics for Large Language Models

October 1, 2025
Авторы: Yuchen Cai, Ding Cao, Xin Xu, Zijun Yao, Yuqing Huang, Zhenyu Tan, Benyi Zhang, Guiquan Liu, Junfeng Fang
cs.AI

Аннотация

Недавние достижения в области способностей к рассуждению у крупных языковых моделей (LLM) во многом обусловлены обучением с подкреплением (RL), однако динамика параметров в процессе RL-обучения остается малоизученной. В данной работе выявлены два фундаментальных свойства обновлений параметров, индуцированных RL в LLM: (1) Доминирование ранга 1, где ведущее сингулярное подпространство матрицы обновления параметров практически полностью определяет улучшение способности к рассуждению, восстанавливая более 99% прироста производительности; и (2) Линейная динамика ранга 1, где это доминирующее подпространство развивается линейно на протяжении всего обучения, что позволяет точно прогнозировать его состояние на основе ранних контрольных точек. Многочисленные эксперименты с 8 LLM и 7 алгоритмами подтверждают универсальность этих свойств. Более того, на основе этих результатов мы предлагаем AlphaRL — плагин-фреймворк для ускорения, который экстраполирует итоговое обновление параметров, используя короткий начальный период обучения, достигая ускорения до 2,5 раз при сохранении >96% производительности рассуждений без дополнительных модулей или настройки гиперпараметров. Это делает наши выводы универсальным и практичным инструментом для масштабируемого RL, открывая путь к принципиально новому, интерпретируемому и эффективному подходу к обучению LLM.
English
Recent advances in reasoning capabilities of large language models (LLMs) are largely driven by reinforcement learning (RL), yet the underlying parameter dynamics during RL training remain poorly understood. This work identifies two fundamental properties of RL-induced parameter updates in LLMs: (1) Rank-1 Dominance, where the top singular subspace of the parameter update matrix nearly fully determines reasoning improvements, recovering over 99\% of performance gains; and (2) Rank-1 Linear Dynamics, where this dominant subspace evolves linearly throughout training, enabling accurate prediction from early checkpoints. Extensive experiments across 8 LLMs and 7 algorithms validate the generalizability of these properties. More importantly, based on these findings, we propose AlphaRL, a plug-in acceleration framework that extrapolates the final parameter update using a short early training window, achieving up to 2.5 speedup while retaining \textgreater 96\% of reasoning performance without extra modules or hyperparameter tuning. This positions our finding as a versatile and practical tool for large-scale RL, opening a path toward principled, interpretable, and efficient training paradigm for LLMs.
PDF82October 2, 2025