大規模言語モデルの強化学習ファインチューニングにおけるエントロピー動態について
On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models
February 3, 2026
著者: Shumin Wang, Yuexiang Xie, Wenhao Zhang, Yuchang Sun, Yanxi Chen, Yaliang Li, Yanyong Zhang
cs.AI
要旨
エントロピーは、大規模言語モデル(LLM)が生成する出力の多様性を測る重要な指標として機能し、その探索能力に関する貴重な知見を提供する。強化学習によるファインチューニング(RFT)における探索と利用のバランスを最適化するため、近年の研究ではエントロピーの監視と調整に注目が集まっているが、このプロセスにおけるエントロピー動態の原理的な理解は未だ十分に探究されていない。本論文では、RFTプロセス中のエントロピー動態を分析する理論的枠組みを構築する。まず単一のロジット更新におけるエントロピー変化を定量化する判別式から出発し、これに基づいてエントロピー変化の一次近似式を導出する。この基礎を発展させ、Group Relative Policy Optimization(GRPO)の更新式への拡張を示す。理論分析から得られた系と知見は、エントロピー制御手法の設計に寄与するとともに、既存研究で提案された様々なエントロピー基準手法を統一的に解釈する視座を提供する。実証実験により分析の主要結論を支持し、導出されたエントロピー判別子クリッピング手法の有効性を実証する。本研究はRFTの学習動態に関する新たな知見をもたらし、LLMファインチューニングにおける探索と利用のバランス最適化に対する理論的基盤と実践的な戦略を提供する。
English
Entropy serves as a critical metric for measuring the diversity of outputs generated by large language models (LLMs), providing valuable insights into their exploration capabilities. While recent studies increasingly focus on monitoring and adjusting entropy to better balance exploration and exploitation in reinforcement fine-tuning (RFT), a principled understanding of entropy dynamics during this process is yet to be thoroughly investigated. In this paper, we establish a theoretical framework for analyzing the entropy dynamics during the RFT process, which begins with a discriminant expression that quantifies entropy change under a single logit update. This foundation enables the derivation of a first-order expression for entropy change, which can be further extended to the update formula of Group Relative Policy Optimization (GRPO). The corollaries and insights drawn from the theoretical analysis inspire the design of entropy control methods, and also offer a unified lens for interpreting various entropy-based methods in existing studies. We provide empirical evidence to support the main conclusions of our analysis and demonstrate the effectiveness of the derived entropy-discriminator clipping methods. This study yields novel insights into RFT training dynamics, providing theoretical support and practical strategies for optimizing the exploration-exploitation balance during LLM fine-tuning.