Необъяснимая эффективность минимизации энтропии в рассуждениях языковых моделей
The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning
May 21, 2025
Авторы: Shivam Agarwal, Zimin Zhang, Lifan Yuan, Jiawei Han, Hao Peng
cs.AI
Аннотация
Минимизация энтропии (EM) обучает модель концентрировать ещё больше вероятностной массы на своих наиболее уверенных выходах. Мы показываем, что эта простая цель сама по себе, без каких-либо размеченных данных, может существенно улучшить производительность крупных языковых моделей (LLM) на сложных задачах по математике, физике и программированию. Мы исследуем три подхода: (1) EM-FT минимизирует энтропию на уровне токенов, аналогично тонкой настройке по инструкциям, но на неразмеченных выходах, сгенерированных моделью; (2) EM-RL: обучение с подкреплением, где отрицательная энтропия является единственной наградой для максимизации; (3) EM-INF: корректировка логитов на этапе вывода для снижения энтропии без использования обучающих данных или обновления параметров. На модели Qwen-7B подход EM-RL, без каких-либо размеченных данных, достигает сопоставимой или даже лучшей производительности, чем сильные базовые методы обучения с подкреплением, такие как GRPO и RLOO, которые обучаются на 60 тыс. размеченных примеров. Более того, EM-INF позволяет Qwen-32B соответствовать или превосходить производительность проприетарных моделей, таких как GPT-4o, Claude 3 Opus и Gemini 1.5 Pro, на сложном бенчмарке SciCode, при этом будучи в 3 раза более эффективной, чем методы самосогласованности и последовательного уточнения. Наши результаты показывают, что многие предобученные LLM обладают ранее недооценёнными способностями к рассуждению, которые могут быть эффективно раскрыты исключительно за счёт минимизации энтропии, без использования размеченных данных или даже обновления параметров.
English
Entropy minimization (EM) trains the model to concentrate even more
probability mass on its most confident outputs. We show that this simple
objective alone, without any labeled data, can substantially improve large
language models' (LLMs) performance on challenging math, physics, and coding
tasks. We explore three approaches: (1) EM-FT minimizes token-level entropy
similarly to instruction finetuning, but on unlabeled outputs drawn from the
model; (2) EM-RL: reinforcement learning with negative entropy as the only
reward to maximize; (3) EM-INF: inference-time logit adjustment to reduce
entropy without any training data or parameter updates. On Qwen-7B, EM-RL,
without any labeled data, achieves comparable or better performance than strong
RL baselines such as GRPO and RLOO that are trained on 60K labeled examples.
Furthermore, EM-INF enables Qwen-32B to match or exceed the performance of
proprietary models like GPT-4o, Claude 3 Opus, and Gemini 1.5 Pro on the
challenging SciCode benchmark, while being 3x more efficient than
self-consistency and sequential refinement. Our findings reveal that many
pretrained LLMs possess previously underappreciated reasoning capabilities that
can be effectively elicited through entropy minimization alone, without any
labeled data or even any parameter updates.Summary
AI-Generated Summary