О динамике энтропии при обучении с подкреплением больших языковых моделей

Аннотация

Энтропия служит ключевым метрическим показателем для измерения разнообразия выходных данных, генерируемых крупными языковыми моделями (LLM), предоставляя важные сведения об их исследовательских способностях. Хотя в последних исследованиях всё больше внимания уделяется мониторингу и регулированию энтропии для лучшего баланса между исследованием и использованием в процессе reinforcement fine-tuning (RFT), принципиальное понимание динамики энтропии в ходе этого процесса ещё не было всесторонне изучено. В данной статье мы создаём теоретическую основу для анализа динамики энтропии в процессе RFT, которая начинается с дискриминантного выражения, количественно оценивающего изменение энтропии при единичном обновлении логитов. Этот фундамент позволяет вывести выражение первого порядка для изменения энтропии, которое может быть далее расширено до формулы обновления Group Relative Policy Optimization (GRPO). Следствия и инсайты, полученные из теоретического анализа, вдохновляют на разработку методов контроля энтропии, а также предлагают унифицированную оптику для интерпретации различных энтропийных методов в существующих исследованиях. Мы предоставляем эмпирические доказательства в поддержку основных выводов нашего анализа и демонстрируем эффективность выведенных методов отсечения по энтропийному дискриминанту. Данное исследование даёт новые представления о динамике обучения RFT, обеспечивая теоретическую поддержку и практические стратегии для оптимизации баланса "исследование-использование" в процессе тонкой настройки LLM.

English

Entropy serves as a critical metric for measuring the diversity of outputs generated by large language models (LLMs), providing valuable insights into their exploration capabilities. While recent studies increasingly focus on monitoring and adjusting entropy to better balance exploration and exploitation in reinforcement fine-tuning (RFT), a principled understanding of entropy dynamics during this process is yet to be thoroughly investigated. In this paper, we establish a theoretical framework for analyzing the entropy dynamics during the RFT process, which begins with a discriminant expression that quantifies entropy change under a single logit update. This foundation enables the derivation of a first-order expression for entropy change, which can be further extended to the update formula of Group Relative Policy Optimization (GRPO). The corollaries and insights drawn from the theoretical analysis inspire the design of entropy control methods, and also offer a unified lens for interpreting various entropy-based methods in existing studies. We provide empirical evidence to support the main conclusions of our analysis and demonstrate the effectiveness of the derived entropy-discriminator clipping methods. This study yields novel insights into RFT training dynamics, providing theoretical support and practical strategies for optimizing the exploration-exploitation balance during LLM fine-tuning.

О динамике энтропии при обучении с подкреплением больших языковых моделей

On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models

Аннотация

Support