ChatPaper.aiChatPaper

EntroPIC: Verso un Addestramento Stabile a Lungo Termine di LLM tramite Stabilizzazione dell'Entropia con Controllo Proporzionale-Integrale

EntroPIC: Towards Stable Long-Term Training of LLMs via Entropy Stabilization with Proportional-Integral Control

November 19, 2025
Autori: Kai Yang, Xin Xu, Yangkun Chen, Weijie Liu, Jiafei Lyu, Zichuan Lin, Deheng Ye, Saiyong Yang
cs.AI

Abstract

L'addestramento a lungo termine di grandi modelli linguistici (LLM) richiede il mantenimento di un'esplorazione stabile per prevenire il collasso del modello in comportamenti sub-ottimali. L'entropia è cruciale in questo contesto, poiché controlla l'esplorazione e aiuta a evitare una convergenza prematura verso soluzioni sub-ottimali. Tuttavia, i metodi di apprendimento per rinforzo esistenti faticano a mantenere un livello appropriato di entropia, poiché il processo di addestramento coinvolge un mix di campioni positivi e negativi, ciascuno dei quali influisce sull'entropia in modi diversi durante le varie fasi. Per affrontare questo problema, proponiamo EntroPIC (Stabilizzazione dell'Entropia tramite Controllo Proporzionale-Integrale), un metodo innovativo che regola in modo adattivo l'influenza dei campioni positivi e negativi modulando dinamicamente i loro coefficienti di loss. Questo approccio stabilizza l'entropia durante l'intero addestramento, garantendo un'esplorazione efficiente e progressi costanti. Forniamo un'analisi teorica completa sia per contesti di apprendimento on-policy che off-policy, dimostrando che EntroPIC è efficace nel controllare l'entropia nell'addestramento di LLM su larga scala. I risultati sperimentali mostrano che il nostro metodo mantiene con successo i livelli di entropia desiderati, consentendo un addestramento RL stabile e ottimale per gli LLM.
English
Long-term training of large language models (LLMs) requires maintaining stable exploration to prevent the model from collapsing into sub-optimal behaviors. Entropy is crucial in this context, as it controls exploration and helps avoid premature convergence to sub-optimal solutions. However, existing reinforcement learning methods struggle to maintain an appropriate level of entropy, as the training process involves a mix of positive and negative samples, each affecting entropy in different ways across steps. To address this, we propose Entropy stablilization via Proportional-Integral Control (EntroPIC), a novel method that adaptively adjusts the influence of positive and negative samples by dynamically tuning their loss coefficients. This approach stabilizes entropy throughout training, ensuring efficient exploration and steady progress. We provide a comprehensive theoretical analysis for both on-policy and off-policy learning settings, demonstrating that EntroPIC is effective at controlling entropy in large-scale LLM training. Experimental results show that our method successfully maintains desired entropy levels, enabling stable and optimal RL training for LLMs.
PDF52December 1, 2025