ChatPaper.aiChatPaper

EntroPIC: 비례-적분 제어를 통한 엔트로피 안정화 기반 LLM 장기 학습 안정화 방안

EntroPIC: Towards Stable Long-Term Training of LLMs via Entropy Stabilization with Proportional-Integral Control

November 19, 2025
저자: Kai Yang, Xin Xu, Yangkun Chen, Weijie Liu, Jiafei Lyu, Zichuan Lin, Deheng Ye, Saiyong Yang
cs.AI

초록

대규모 언어 모델(LLM)의 장기적 훈련에서는 모델이 차선책 행동으로 퇴화하는 것을 방지하기 위해 안정적인 탐색을 유지해야 합니다. 엔트로피는 탐색을 제어하고 차선책 해법으로의 조기 수렴을 피하는 데 핵심적인 역할을 합니다. 그러나 기존 강화학습 방법들은 훈련 과정에서 긍정 샘플과 부정 샘플이 혼재되어 각 단계별로 엔트로피에 미치는 영향이 다르기 때문에 적절한 수준의 엔트로피를 유지하는 데 어려움을 겪습니다. 이를 해결하기 위해 우리는 비례-적분 제어를 통한 엔트로피 안정화(EntroPIC) 방법을 제안합니다. 이는 긍정 및 부정 샘플의 손실 계수를 동적으로 조정하여 이들의 영향을 적응적으로 조절하는 새로운 방법으로, 훈련 전반에 걸쳐 엔트로피를 안정화시켜 효율적인 탐색과 꾸준한 학습 진행을 보장합니다. 우리는 온-정책 및 오프-정책 학습 설정 모두에 대한 이론적 분석을 제시하며, EntroPIC이 대규모 LLM 훈련에서 엔트로피를 효과적으로 제어함을 입증합니다. 실험 결과는 우리의 방법이 목표하는 엔트로피 수준을 성공적으로 유지하여 LLM의 안정적이고 최적의 강화학습 훈련을 가능하게 함을 보여줍니다.
English
Long-term training of large language models (LLMs) requires maintaining stable exploration to prevent the model from collapsing into sub-optimal behaviors. Entropy is crucial in this context, as it controls exploration and helps avoid premature convergence to sub-optimal solutions. However, existing reinforcement learning methods struggle to maintain an appropriate level of entropy, as the training process involves a mix of positive and negative samples, each affecting entropy in different ways across steps. To address this, we propose Entropy stablilization via Proportional-Integral Control (EntroPIC), a novel method that adaptively adjusts the influence of positive and negative samples by dynamically tuning their loss coefficients. This approach stabilizes entropy throughout training, ensuring efficient exploration and steady progress. We provide a comprehensive theoretical analysis for both on-policy and off-policy learning settings, demonstrating that EntroPIC is effective at controlling entropy in large-scale LLM training. Experimental results show that our method successfully maintains desired entropy levels, enabling stable and optimal RL training for LLMs.
PDF52December 1, 2025