Sobre la Dinámica de la Entropía en el Ajuste Fino por Refuerzo de Modelos de Lenguaje a Gran Escala

Resumen

La entropía sirve como una métrica crítica para medir la diversidad de las salidas generadas por los modelos de lenguaje a gran escala (LLMs), proporcionando información valiosa sobre sus capacidades de exploración. Si bien estudios recientes se centran cada vez más en monitorear y ajustar la entropía para equilibrar mejor la exploración y la explotación en el ajuste fino por refuerzo (RFT), aún falta investigar exhaustivamente una comprensión fundamentada de la dinámica de la entropía durante este proceso. En este artículo, establecemos un marco teórico para analizar la dinámica de la entropía durante el proceso de RFT, que comienza con una expresión discriminante que cuantifica el cambio de entropía bajo una actualización única del logit. Esta base permite derivar una expresión de primer orden para el cambio de entropía, que puede extenderse aún más a la fórmula de actualización de la Optimización de Políticas Relativas de Grupo (GRPO). Los corolarios y perspectivas extraídos del análisis teórico inspiran el diseño de métodos de control de entropía y también ofrecen una lente unificada para interpretar varios métodos basados en entropía en estudios existentes. Proporcionamos evidencia empírica para respaldar las principales conclusiones de nuestro análisis y demostramos la efectividad de los métodos de recorte discriminante de entropía derivados. Este estudio produce nuevas perspectivas sobre la dinámica del entrenamiento RFT, proporcionando soporte teórico y estrategias prácticas para optimizar el equilibrio exploración-explotación durante el ajuste fino de LLMs.

English

Entropy serves as a critical metric for measuring the diversity of outputs generated by large language models (LLMs), providing valuable insights into their exploration capabilities. While recent studies increasingly focus on monitoring and adjusting entropy to better balance exploration and exploitation in reinforcement fine-tuning (RFT), a principled understanding of entropy dynamics during this process is yet to be thoroughly investigated. In this paper, we establish a theoretical framework for analyzing the entropy dynamics during the RFT process, which begins with a discriminant expression that quantifies entropy change under a single logit update. This foundation enables the derivation of a first-order expression for entropy change, which can be further extended to the update formula of Group Relative Policy Optimization (GRPO). The corollaries and insights drawn from the theoretical analysis inspire the design of entropy control methods, and also offer a unified lens for interpreting various entropy-based methods in existing studies. We provide empirical evidence to support the main conclusions of our analysis and demonstrate the effectiveness of the derived entropy-discriminator clipping methods. This study yields novel insights into RFT training dynamics, providing theoretical support and practical strategies for optimizing the exploration-exploitation balance during LLM fine-tuning.