Over de entropiedynamiek bij reinforcement finetuning van grote taalmodellen

Samenvatting

Entropie fungeert als een cruciale maatstaf voor het meten van de diversiteit van uitvoer gegenereerd door grote taalmmodellen (LLM's), wat waardevolle inzichten verschaft in hun verkenningcapaciteiten. Hoewel recente studies zich in toenemende mate richten op het monitoren en aanpassen van entropie om de balans tussen exploratie en exploitatie bij reinforcement fine-tuning (RFT) te verbeteren, moet een principieel begrip van de entropiedynamiek tijdens dit proces nog grondig worden onderzocht. In dit artikel stellen we een theoretisch kader op voor het analyseren van de entropiedynamiek tijdens het RFT-proces, dat start met een discriminantexpressie die entropieverandering onder een enkele logit-update kwantificeert. Deze basis stelt ons in staat een eerste-orde expressie voor entropieverandering af te leiden, die verder kan worden uitgebreid naar de updateformule van Group Relative Policy Optimization (GRPO). De uit theoretische analyse voortvloeiende corollaria en inzichten inspireren het ontwerp van entropiecontrolemethoden en bieden ook een verenigende lens voor het interpreteren van diverse op entropie gebaseerde methoden in bestaande studies. We leveren empirisch bewijs om de belangrijkste conclusies van onze analyse te ondersteunen en demonstreren de effectiviteit van de afgeleide entropie-discriminant clipping-methoden. Deze studie levert nieuwe inzichten op in RFT-trainingsdynamiek, en biedt theoretische ondersteuning en praktische strategieën voor het optimaliseren van de exploratie-exploitatiebalans tijdens het finetunen van LLM's.

English

Entropy serves as a critical metric for measuring the diversity of outputs generated by large language models (LLMs), providing valuable insights into their exploration capabilities. While recent studies increasingly focus on monitoring and adjusting entropy to better balance exploration and exploitation in reinforcement fine-tuning (RFT), a principled understanding of entropy dynamics during this process is yet to be thoroughly investigated. In this paper, we establish a theoretical framework for analyzing the entropy dynamics during the RFT process, which begins with a discriminant expression that quantifies entropy change under a single logit update. This foundation enables the derivation of a first-order expression for entropy change, which can be further extended to the update formula of Group Relative Policy Optimization (GRPO). The corollaries and insights drawn from the theoretical analysis inspire the design of entropy control methods, and also offer a unified lens for interpreting various entropy-based methods in existing studies. We provide empirical evidence to support the main conclusions of our analysis and demonstrate the effectiveness of the derived entropy-discriminator clipping methods. This study yields novel insights into RFT training dynamics, providing theoretical support and practical strategies for optimizing the exploration-exploitation balance during LLM fine-tuning.

Over de entropiedynamiek bij reinforcement finetuning van grote taalmodellen

On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models

Samenvatting

Support