LLM推論におけるエントロピー最小化の驚くべき有効性
The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning
May 21, 2025
著者: Shivam Agarwal, Zimin Zhang, Lifan Yuan, Jiawei Han, Hao Peng
cs.AI
要旨
エントロピー最小化(EM)は、モデルが最も自信を持っている出力にさらに確率質量を集中させるように訓練します。本論文では、この単純な目的関数だけで、ラベル付きデータを一切使用せずに、大規模言語モデル(LLM)の数学、物理学、コーディングといった難易度の高いタスクにおける性能を大幅に向上させることができることを示します。我々は3つのアプローチを検討しました:(1) EM-FTは、モデルから生成されたラベルなし出力に対して、指示ファインチューニングと同様にトークンレベルのエントロピーを最小化します;(2) EM-RLは、負のエントロピーを唯一の報酬として最大化する強化学習です;(3) EM-INFは、訓練データやパラメータ更新を一切行わずに、推論時のロジット調整によってエントロピーを低減します。Qwen-7Bにおいて、EM-RLはラベル付きデータを一切使用せずに、6万のラベル付き例で訓練されたGRPOやRLOOといった強力なRLベースラインと同等またはそれ以上の性能を達成しました。さらに、EM-INFにより、Qwen-32BはSciCodeベンチマークにおいて、GPT-4o、Claude 3 Opus、Gemini 1.5 Proといったプロプライエタリモデルに匹敵または凌駕する性能を発揮し、自己一貫性や逐次改良よりも3倍効率的であることが示されました。我々の研究結果は、多くの事前学習済みLLMが、これまで過小評価されていた推論能力を有しており、ラベル付きデータやパラメータ更新を一切行わずに、エントロピー最小化だけで効果的に引き出すことができることを明らかにしています。
English
Entropy minimization (EM) trains the model to concentrate even more
probability mass on its most confident outputs. We show that this simple
objective alone, without any labeled data, can substantially improve large
language models' (LLMs) performance on challenging math, physics, and coding
tasks. We explore three approaches: (1) EM-FT minimizes token-level entropy
similarly to instruction finetuning, but on unlabeled outputs drawn from the
model; (2) EM-RL: reinforcement learning with negative entropy as the only
reward to maximize; (3) EM-INF: inference-time logit adjustment to reduce
entropy without any training data or parameter updates. On Qwen-7B, EM-RL,
without any labeled data, achieves comparable or better performance than strong
RL baselines such as GRPO and RLOO that are trained on 60K labeled examples.
Furthermore, EM-INF enables Qwen-32B to match or exceed the performance of
proprietary models like GPT-4o, Claude 3 Opus, and Gemini 1.5 Pro on the
challenging SciCode benchmark, while being 3x more efficient than
self-consistency and sequential refinement. Our findings reveal that many
pretrained LLMs possess previously underappreciated reasoning capabilities that
can be effectively elicited through entropy minimization alone, without any
labeled data or even any parameter updates.Summary
AI-Generated Summary