Sulle Dinamiche dell'Entropia nel Fine-Tuning Rinforzato dei Grandi Modelli Linguistici

Abstract

L'entropia funge da metrica cruciale per misurare la diversità degli output generati dai grandi modelli linguistici (LLM), fornendo spunti preziosi sulle loro capacità di esplorazione. Sebbene studi recenti si concentrino sempre più sul monitoraggio e sulla regolazione dell'entropia per bilanciare meglio esplorazione e sfruttamento durante la messa a punto con rinforzo (RFT), una comprensione principiata delle dinamiche entropiche durante questo processo deve ancora essere approfondita. In questo articolo, stabiliamo un quadro teorico per analizzare le dinamiche dell'entropia durante il processo RFT, partendo da un'espressione discriminante che quantifica la variazione entropica sotto un singolo aggiornamento dei logit. Questa base consente la derivazione di un'espressione del primo ordine per la variazione di entropia, che può essere ulteriormente estesa alla formula di aggiornamento dell'ottimizzazione della politica relativa di gruppo (GRPO). I corollari e le intuizioni tratte dall'analisi teorica ispirano la progettazione di metodi per il controllo dell'entropia e offrono anche una lente unificata per interpretare vari metodi basati sull'entropia presenti nella letteratura esistente. Forniamo evidenze empiriche a supporto delle principali conclusioni della nostra analisi e dimostriamo l'efficacia dei metodi derivati di clipping del discriminatore entropico. Questo studio fornisce nuove intuizioni sulle dinamiche di addestramento RFT, offrendo supporto teorico e strategie pratiche per ottimizzare il bilancio esplorazione-sfruttamento durante la messa a punto degli LLM.

English

Entropy serves as a critical metric for measuring the diversity of outputs generated by large language models (LLMs), providing valuable insights into their exploration capabilities. While recent studies increasingly focus on monitoring and adjusting entropy to better balance exploration and exploitation in reinforcement fine-tuning (RFT), a principled understanding of entropy dynamics during this process is yet to be thoroughly investigated. In this paper, we establish a theoretical framework for analyzing the entropy dynamics during the RFT process, which begins with a discriminant expression that quantifies entropy change under a single logit update. This foundation enables the derivation of a first-order expression for entropy change, which can be further extended to the update formula of Group Relative Policy Optimization (GRPO). The corollaries and insights drawn from the theoretical analysis inspire the design of entropy control methods, and also offer a unified lens for interpreting various entropy-based methods in existing studies. We provide empirical evidence to support the main conclusions of our analysis and demonstrate the effectiveness of the derived entropy-discriminator clipping methods. This study yields novel insights into RFT training dynamics, providing theoretical support and practical strategies for optimizing the exploration-exploitation balance during LLM fine-tuning.

Sulle Dinamiche dell'Entropia nel Fine-Tuning Rinforzato dei Grandi Modelli Linguistici

On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models

Abstract

Support