EntroPIC: Op weg naar stabiele langetermijntraining van LLM's via entropiestabilisatie met proportioneel-integrale regeling
EntroPIC: Towards Stable Long-Term Training of LLMs via Entropy Stabilization with Proportional-Integral Control
November 19, 2025
Auteurs: Kai Yang, Xin Xu, Yangkun Chen, Weijie Liu, Jiafei Lyu, Zichuan Lin, Deheng Ye, Saiyong Yang
cs.AI
Samenvatting
Langdurige training van grote taalmodellen (LLM's) vereist stabiele exploratie om te voorkomen dat het model vervalt in suboptimale gedragspatronen. Entropie is in deze context cruciaal, omdat het de exploratie reguleert en helpt voorkomen dat het model voortijdig convergeert naar suboptimale oplossingen. Bestaande reinforcement learning-methoden hebben echter moeite om een passend entropieniveau te handhaven, aangezien het trainingsproces een mix van positieve en negatieve voorbeelden omvat, die elk op verschillende manieren en op verschillende tijdstappen de entropie beïnvloeden. Om dit aan te pakken, stellen wij Entropiestabilisatie via Proportioneel-Integrale Regeling (EntroPIC) voor, een nieuwe methode die de invloed van positieve en negatieve voorbeelden adaptief aanpast door hun verliescoëfficiënten dynamisch af te stemmen. Deze aanpak stabiliseert de entropie gedurende de hele training, wat zorgt voor efficiënte exploratie en gestage vooruitgang. Wij bieden een uitgebreide theoretische analyse voor zowel on-policy als off-policy leeromgevingen, waarin wordt aangetoond dat EntroPIC effectief is in het regelen van entropie bij grootschalige LLM-training. Experimentele resultaten tonen aan dat onze methode met succes de gewenste entropieniveaus handhaaft, waardoor stabiele en optimale RL-training voor LLM's mogelijk wordt.
English
Long-term training of large language models (LLMs) requires maintaining stable exploration to prevent the model from collapsing into sub-optimal behaviors. Entropy is crucial in this context, as it controls exploration and helps avoid premature convergence to sub-optimal solutions. However, existing reinforcement learning methods struggle to maintain an appropriate level of entropy, as the training process involves a mix of positive and negative samples, each affecting entropy in different ways across steps. To address this, we propose Entropy stablilization via Proportional-Integral Control (EntroPIC), a novel method that adaptively adjusts the influence of positive and negative samples by dynamically tuning their loss coefficients. This approach stabilizes entropy throughout training, ensuring efficient exploration and steady progress. We provide a comprehensive theoretical analysis for both on-policy and off-policy learning settings, demonstrating that EntroPIC is effective at controlling entropy in large-scale LLM training. Experimental results show that our method successfully maintains desired entropy levels, enabling stable and optimal RL training for LLMs.