Рассуждения с исследованием: перспектива энтропии
Reasoning with Exploration: An Entropy Perspective
June 17, 2025
Авторы: Daixuan Cheng, Shaohan Huang, Xuekai Zhu, Bo Dai, Wayne Xin Zhao, Zhenliang Zhang, Furu Wei
cs.AI
Аннотация
Баланс между исследованием и эксплуатацией является ключевой задачей в обучении с подкреплением (RL). Несмотря на недавние успехи в улучшении рассуждений языковых моделей (LM), большинство методов склоняются к эксплуатации и всё чаще сталкиваются с плато в производительности. В данной работе мы возвращаемся к энтропии — сигналу исследования в RL — и исследуем её связь с исследовательскими рассуждениями в LM. Эмпирический анализ выявляет сильные положительные корреляции между областями с высокой энтропией и тремя типами исследовательских действий в рассуждениях: (1) ключевые токены, определяющие или связывающие логические шаги, (2) рефлексивные действия, такие как самопроверка и исправление, и (3) редкие поведения, недостаточно изученные базовыми LM. Вдохновлённые этим, мы предлагаем минимальную модификацию стандартного RL, состоящую всего из одной строки кода: дополнение функции преимущества термином, основанным на энтропии. В отличие от традиционных методов максимизации энтропии, которые поощряют исследование через увеличение неопределённости, мы стимулируем исследование, способствуя более длинным и глубоким цепочкам рассуждений. Примечательно, что наш метод демонстрирует значительный прогресс в метрике Pass@K — верхней оценке способностей LM к рассуждениям — даже при оценке с чрезвычайно большими значениями K, расширяя границы возможностей LM в рассуждениях.
English
Balancing exploration and exploitation is a central goal in reinforcement
learning (RL). Despite recent advances in enhancing language model (LM)
reasoning, most methods lean toward exploitation, and increasingly encounter
performance plateaus. In this work, we revisit entropy -- a signal of
exploration in RL -- and examine its relationship to exploratory reasoning in
LMs. Through empirical analysis, we uncover strong positive correlations
between high-entropy regions and three types of exploratory reasoning actions:
(1) pivotal tokens that determine or connect logical steps, (2) reflective
actions such as self-verification and correction, and (3) rare behaviors
under-explored by the base LMs. Motivated by this, we introduce a minimal
modification to standard RL with only one line of code: augmenting the
advantage function with an entropy-based term. Unlike traditional
maximum-entropy methods which encourage exploration by promoting uncertainty,
we encourage exploration by promoting longer and deeper reasoning chains.
Notably, our method achieves significant gains on the Pass@K metric -- an
upper-bound estimator of LM reasoning capabilities -- even when evaluated with
extremely large K values, pushing the boundaries of LM reasoning.