Энтропийный механизм обучения с подкреплением для языковых моделей рассужденийThe Entropy Mechanism of Reinforcement Learning for Reasoning Language
Models
Данная работа направлена на преодоление ключевого препятствия в масштабировании обучения с подкреплением (RL) для задач рассуждений с использованием больших языковых моделей (LLM), а именно коллапса энтропии политики. Это явление последовательно наблюдается в ходе обширных экспериментов с RL без вмешательства в энтропию, где энтропия политики резко снижается на ранних этапах обучения, что сопровождается насыщением производительности политики. На практике мы устанавливаем преобразовательное уравнение R=-a*e^H+b между энтропией H и итоговой производительностью R. Этот эмпирический закон явно указывает на то, что производительность политики достигается за счет энтропии, что ограничивается её истощением, а верхний предел полностью предсказуем: H=0, R=-a+b. Наше открытие подчеркивает необходимость управления энтропией для обеспечения непрерывного исследования в контексте масштабирования вычислительных ресурсов для RL. С этой целью мы исследуем динамику энтропии как теоретически, так и эмпирически. Наш вывод подчеркивает, что изменение энтропии политики обусловлено ковариацией между вероятностью действия и изменением логарифмических значений, что пропорционально её преимуществу при использовании алгоритмов, подобных Policy Gradient. Эмпирическое исследование показывает, что значения ковариационного члена и разницы энтропий точно совпадают, что подтверждает теоретический вывод. Более того, ковариационный член остается преимущественно положительным на протяжении всего обучения, что дополнительно объясняет, почему энтропия политики снижается монотонно. Понимая механизм, лежащий в основе динамики энтропии, мы предлагаем управлять энтропией, ограничивая обновление токенов с высокой ковариацией. В частности, мы предлагаем два простых, но эффективных метода: Clip-Cov и KL-Cov, которые соответственно ограничивают и применяют штраф KL к токенам с высокой ковариацией. Эксперименты показывают, что эти методы стимулируют исследование, помогая политике избежать коллапса энтропии и достичь лучшей итоговой производительности.