ChatPaper.aiChatPaper

EntroPIC: Hacia un Entrenamiento Estable a Largo Plazo de LLM mediante Estabilización de Entropía con Control Proporcional-Integral

EntroPIC: Towards Stable Long-Term Training of LLMs via Entropy Stabilization with Proportional-Integral Control

November 19, 2025
Autores: Kai Yang, Xin Xu, Yangkun Chen, Weijie Liu, Jiafei Lyu, Zichuan Lin, Deheng Ye, Saiyong Yang
cs.AI

Resumen

El entrenamiento a largo plazo de modelos de lenguaje a gran escala (LLM) requiere mantener una exploración estable para evitar que el modelo colapse en comportamientos subóptimos. La entropía es crucial en este contexto, ya que controla la exploración y ayuda a evitar la convergencia prematura a soluciones subóptimas. Sin embargo, los métodos existentes de aprendizaje por refuerzo tienen dificultades para mantener un nivel adecuado de entropía, ya que el proceso de entrenamiento implica una mezcla de muestras positivas y negativas, cada una afectando la entropía de manera diferente a lo largo de los pasos. Para abordar esto, proponemos Estabilización de Entropía mediante Control Proporcional-Integral (EntroPIC), un método novedoso que ajusta adaptativamente la influencia de las muestras positivas y negativas sintonizando dinámicamente sus coeficientes de pérdida. Este enfoque estabiliza la entropía durante todo el entrenamiento, garantizando una exploración eficiente y un progreso constante. Proporcionamos un análisis teórico exhaustivo para entornos de aprendizaje tanto *on-policy* como *off-policy*, demostrando que EntroPIC es efectivo para controlar la entropía en el entrenamiento de LLM a gran escala. Los resultados experimentales muestran que nuestro método mantiene exitosamente los niveles de entropía deseados, permitiendo un entrenamiento estable y óptimo por refuerzo para LLM.
English
Long-term training of large language models (LLMs) requires maintaining stable exploration to prevent the model from collapsing into sub-optimal behaviors. Entropy is crucial in this context, as it controls exploration and helps avoid premature convergence to sub-optimal solutions. However, existing reinforcement learning methods struggle to maintain an appropriate level of entropy, as the training process involves a mix of positive and negative samples, each affecting entropy in different ways across steps. To address this, we propose Entropy stablilization via Proportional-Integral Control (EntroPIC), a novel method that adaptively adjusts the influence of positive and negative samples by dynamically tuning their loss coefficients. This approach stabilizes entropy throughout training, ensuring efficient exploration and steady progress. We provide a comprehensive theoretical analysis for both on-policy and off-policy learning settings, demonstrating that EntroPIC is effective at controlling entropy in large-scale LLM training. Experimental results show that our method successfully maintains desired entropy levels, enabling stable and optimal RL training for LLMs.
PDF52December 1, 2025