Über die Entropiedynamik beim Reinforcement Fine-Tuning großer Sprachmodelle

Zusammenfassung

Die Entropie dient als entscheidende Metrik zur Messung der Vielfalt der von großen Sprachmodellen (LLMs) generierten Ausgaben und liefert wertvolle Einblicke in deren Erkundungsfähigkeiten. Während sich neuere Studien verstärkt auf die Überwachung und Anpassung der Entropie konzentrieren, um das Gleichgewicht zwischen Exploration und Exploitation beim Reinforcement Fine-Tuning (RFT) zu verbessern, wurde ein prinzipielles Verständnis der Entropiedynamik während dieses Prozesses bisher nicht umfassend untersucht. In dieser Arbeit entwickeln wir einen theoretischen Rahmen zur Analyse der Entropiedynamik während des RFT-Prozesses, der mit einem diskriminanten Ausdruck beginnt, der die Entropieänderung bei einer einzelnen Logit-Aktualisierung quantifiziert. Diese Grundlage ermöglicht die Herleitung eines Ausdrucks erster Ordnung für die Entropieänderung, der weiter zur Aktualisierungsformel der Group Relative Policy Optimization (GRPO) erweitert werden kann. Die aus der theoretischen Analyse abgeleiteten Korollare und Erkenntnisse inspirieren die Entwicklung von Methoden zur Entropiesteuerung und bieten gleichzeitig eine einheitliche Betrachtungsweise zur Interpretation verschiedener entropiebasierter Methoden in bestehenden Studien. Wir liefern empirische Belege zur Untermauerung der Hauptergebnisse unserer Analyse und demonstrieren die Wirksamkeit der abgeleiteten Entropie-Diskriminator-Clipping-Methoden. Diese Studie liefert neue Einblicke in die RFT-Trainingsdynamik und bietet theoretische Unterstützung sowie praktische Strategien zur Optimierung des Exploration-Exploitation-Gleichgewichts während des Feinabgleichs von LLMs.

English

Entropy serves as a critical metric for measuring the diversity of outputs generated by large language models (LLMs), providing valuable insights into their exploration capabilities. While recent studies increasingly focus on monitoring and adjusting entropy to better balance exploration and exploitation in reinforcement fine-tuning (RFT), a principled understanding of entropy dynamics during this process is yet to be thoroughly investigated. In this paper, we establish a theoretical framework for analyzing the entropy dynamics during the RFT process, which begins with a discriminant expression that quantifies entropy change under a single logit update. This foundation enables the derivation of a first-order expression for entropy change, which can be further extended to the update formula of Group Relative Policy Optimization (GRPO). The corollaries and insights drawn from the theoretical analysis inspire the design of entropy control methods, and also offer a unified lens for interpreting various entropy-based methods in existing studies. We provide empirical evidence to support the main conclusions of our analysis and demonstrate the effectiveness of the derived entropy-discriminator clipping methods. This study yields novel insights into RFT training dynamics, providing theoretical support and practical strategies for optimizing the exploration-exploitation balance during LLM fine-tuning.

Über die Entropiedynamik beim Reinforcement Fine-Tuning großer Sprachmodelle

On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models

Zusammenfassung

Support