ChatPaper.aiChatPaper

Sobre a Previsibilidade da Dinâmica de Aprendizado por Reforço para Modelos de Linguagem de Grande Escala

On Predictability of Reinforcement Learning Dynamics for Large Language Models

October 1, 2025
Autores: Yuchen Cai, Ding Cao, Xin Xu, Zijun Yao, Yuqing Huang, Zhenyu Tan, Benyi Zhang, Guiquan Liu, Junfeng Fang
cs.AI

Resumo

Os recentes avanços nas capacidades de raciocínio de modelos de linguagem de grande escala (LLMs) são amplamente impulsionados pelo aprendizado por reforço (RL), mas a dinâmica subjacente dos parâmetros durante o treinamento de RL ainda é pouco compreendida. Este trabalho identifica duas propriedades fundamentais das atualizações de parâmetros induzidas por RL em LLMs: (1) Dominância de Rank-1, onde o subespaço singular superior da matriz de atualização de parâmetros determina quase completamente as melhorias de raciocínio, recuperando mais de 99% dos ganhos de desempenho; e (2) Dinâmica Linear de Rank-1, onde esse subespaço dominante evolui linearmente ao longo do treinamento, permitindo previsões precisas a partir de checkpoints iniciais. Experimentos extensivos em 8 LLMs e 7 algoritmos validam a generalizabilidade dessas propriedades. Mais importante, com base nessas descobertas, propomos o AlphaRL, uma estrutura de aceleração plug-in que extrapola a atualização final de parâmetros usando uma breve janela inicial de treinamento, alcançando até 2,5 vezes de aceleração enquanto mantém mais de 96% do desempenho de raciocínio, sem módulos extras ou ajuste de hiperparâmetros. Isso posiciona nossa descoberta como uma ferramenta versátil e prática para RL em larga escala, abrindo caminho para um paradigma de treinamento de LLMs que seja fundamentado, interpretável e eficiente.
English
Recent advances in reasoning capabilities of large language models (LLMs) are largely driven by reinforcement learning (RL), yet the underlying parameter dynamics during RL training remain poorly understood. This work identifies two fundamental properties of RL-induced parameter updates in LLMs: (1) Rank-1 Dominance, where the top singular subspace of the parameter update matrix nearly fully determines reasoning improvements, recovering over 99\% of performance gains; and (2) Rank-1 Linear Dynamics, where this dominant subspace evolves linearly throughout training, enabling accurate prediction from early checkpoints. Extensive experiments across 8 LLMs and 7 algorithms validate the generalizability of these properties. More importantly, based on these findings, we propose AlphaRL, a plug-in acceleration framework that extrapolates the final parameter update using a short early training window, achieving up to 2.5 speedup while retaining \textgreater 96\% of reasoning performance without extra modules or hyperparameter tuning. This positions our finding as a versatile and practical tool for large-scale RL, opening a path toward principled, interpretable, and efficient training paradigm for LLMs.
PDF82October 2, 2025