ChatPaper.aiChatPaper

EntroPIC: Auf dem Weg zu einem stabilen Langzeittraining von LLMs durch Entropiestabilisierung mit proportional-integraler Regelung

EntroPIC: Towards Stable Long-Term Training of LLMs via Entropy Stabilization with Proportional-Integral Control

November 19, 2025
papers.authors: Kai Yang, Xin Xu, Yangkun Chen, Weijie Liu, Jiafei Lyu, Zichuan Lin, Deheng Ye, Saiyong Yang
cs.AI

papers.abstract

Langzeittraining großer Sprachmodelle (LLMs) erfordert die Aufrechterhaltung einer stabilen Exploration, um zu verhindern, dass das Modell in suboptimale Verhaltensweisen kollabiert. Entropie spielt in diesem Kontext eine entscheidende Rolle, da sie die Exploration steuert und hilft, eine vorzeitige Konvergenz zu suboptimalen Lösungen zu vermeiden. Bestehende Reinforcement-Learning-Methoden haben jedoch Schwierigkeiten, ein angemessenes Entropieniveau aufrechtzuerhalten, da der Trainingsprozess eine Mischung aus positiven und negativen Beispielen umfasst, die sich in unterschiedlicher Weise auf die Entropie über die Trainingsschritte hinweg auswirken. Um dieses Problem zu lösen, schlagen wir Entropiestabilisierung durch Proportional-Integral-Regelung (EntroPIC) vor, eine neuartige Methode, die den Einfluss positiver und negativer Beispiele durch dynamische Anpassung ihrer Verlustkoeffizienten adaptiv reguliert. Dieser Ansatz stabilisiert die Entropie während des gesamten Trainings und gewährleistet so effiziente Exploration und stetige Fortschritte. Wir liefern eine umfassende theoretische Analyse für On-Policy- und Off-Policy-Lernsettings und zeigen, dass EntroPIC effektiv zur Entropiesteuerung im großskaligen LLM-Training geeignet ist. Experimentelle Ergebnisse belegen, dass unsere Methode erfolgreich die gewünschten Entropieniveaus aufrechterhält und stabiles sowie optimales RL-Training für LLMs ermöglicht.
English
Long-term training of large language models (LLMs) requires maintaining stable exploration to prevent the model from collapsing into sub-optimal behaviors. Entropy is crucial in this context, as it controls exploration and helps avoid premature convergence to sub-optimal solutions. However, existing reinforcement learning methods struggle to maintain an appropriate level of entropy, as the training process involves a mix of positive and negative samples, each affecting entropy in different ways across steps. To address this, we propose Entropy stablilization via Proportional-Integral Control (EntroPIC), a novel method that adaptively adjusts the influence of positive and negative samples by dynamically tuning their loss coefficients. This approach stabilizes entropy throughout training, ensuring efficient exploration and steady progress. We provide a comprehensive theoretical analysis for both on-policy and off-policy learning settings, demonstrating that EntroPIC is effective at controlling entropy in large-scale LLM training. Experimental results show that our method successfully maintains desired entropy levels, enabling stable and optimal RL training for LLMs.
PDF52December 1, 2025