Sur la dynamique de l'entropie dans le réglage fin par renforcement des grands modèles de langage

Résumé

L'entropie constitue une métrique essentielle pour mesurer la diversité des sorties générées par les grands modèles de langage (LLM), offrant un éclairage précieux sur leurs capacités d'exploration. Si les études récentes se concentrent davantage sur le suivi et l'ajustement de l'entropie pour mieux équilibrer exploration et exploitation lors du réglage fin par renforcement (RFT), une compréhension théorique des dynamiques entropiques durant ce processus reste à approfondir. Dans cet article, nous établissons un cadre théorique pour analyser les dynamiques de l'entropie durant le processus RFT, en commençant par une expression discriminante qui quantifie la variation d'entropie sous une mise à jour unique des logits. Cette fondation permet de dériver une expression du premier ordre pour la variation d'entropie, qui peut être étendue à la formule de mise à jour de l'optimisation de politique relative par groupe (GRPO). Les corollaires et perspectives issues de l'analyse théorique inspirent la conception de méthodes de contrôle de l'entropie, et offrent également une grille d'interprétation unifiée pour diverses méthodes basées sur l'entropie dans les études existantes. Nous fournissons des preuves empiriques étayant les principales conclusions de notre analyse et démontrons l'efficacité des méthodes dérivées de seuillage discriminant par l'entropie. Cette étude apporte de nouveaux éclairages sur les dynamiques d'apprentissage du RFT, fournissant un support théorique et des stratégies pratiques pour optimiser l'équilibre exploration-exploitation lors du réglage fin des LLM.

English

Entropy serves as a critical metric for measuring the diversity of outputs generated by large language models (LLMs), providing valuable insights into their exploration capabilities. While recent studies increasingly focus on monitoring and adjusting entropy to better balance exploration and exploitation in reinforcement fine-tuning (RFT), a principled understanding of entropy dynamics during this process is yet to be thoroughly investigated. In this paper, we establish a theoretical framework for analyzing the entropy dynamics during the RFT process, which begins with a discriminant expression that quantifies entropy change under a single logit update. This foundation enables the derivation of a first-order expression for entropy change, which can be further extended to the update formula of Group Relative Policy Optimization (GRPO). The corollaries and insights drawn from the theoretical analysis inspire the design of entropy control methods, and also offer a unified lens for interpreting various entropy-based methods in existing studies. We provide empirical evidence to support the main conclusions of our analysis and demonstrate the effectiveness of the derived entropy-discriminator clipping methods. This study yields novel insights into RFT training dynamics, providing theoretical support and practical strategies for optimizing the exploration-exploitation balance during LLM fine-tuning.

Sur la dynamique de l'entropie dans le réglage fin par renforcement des grands modèles de langage

On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models

Résumé

Support