EntroPIC:エントロピー安定化と比例-積分制御による大規模言語モデルの安定した長期学習に向けて
EntroPIC: Towards Stable Long-Term Training of LLMs via Entropy Stabilization with Proportional-Integral Control
November 19, 2025
著者: Kai Yang, Xin Xu, Yangkun Chen, Weijie Liu, Jiafei Lyu, Zichuan Lin, Deheng Ye, Saiyong Yang
cs.AI
要旨
大規模言語モデル(LLM)の長期的な訓練には、モデルが準最適な行動に陥るのを防ぐため、安定した探索を維持することが必要である。この文脈においてエントロピーは、探索を制御し、準最適解への早期収束を回避する上で極めて重要である。しかし、既存の強化学習手法では、適切なエントロピーレベルを維持することが困難である。これは、訓練プロセスが正例と負例が混在し、それぞれがステップごとに異なる方法でエントロピーに影響を与えるためである。この問題に対処するため、我々は比例-積分制御によるエントロピー安定化法(EntroPIC)を提案する。この新規手法は、正例と負例の損失係数を動的に調整することで、それらの影響力を適応的に調節する。このアプローチにより、訓練全体を通じてエントロピーが安定化され、効率的な探索と着実な進展が保証される。本手法が大規模LLM訓練においてエントロピー制御に有効であることを、方策オン型と方策オフ型の両学習設定において包括的な理論解析を通じて示す。実験結果から、本手法が目標とするエントロピーレベルを確実に維持し、LLMのための安定かつ最適な強化学習訓練を実現することが確認された。
English
Long-term training of large language models (LLMs) requires maintaining stable exploration to prevent the model from collapsing into sub-optimal behaviors. Entropy is crucial in this context, as it controls exploration and helps avoid premature convergence to sub-optimal solutions. However, existing reinforcement learning methods struggle to maintain an appropriate level of entropy, as the training process involves a mix of positive and negative samples, each affecting entropy in different ways across steps. To address this, we propose Entropy stablilization via Proportional-Integral Control (EntroPIC), a novel method that adaptively adjusts the influence of positive and negative samples by dynamically tuning their loss coefficients. This approach stabilizes entropy throughout training, ensuring efficient exploration and steady progress. We provide a comprehensive theoretical analysis for both on-policy and off-policy learning settings, demonstrating that EntroPIC is effective at controlling entropy in large-scale LLM training. Experimental results show that our method successfully maintains desired entropy levels, enabling stable and optimal RL training for LLMs.