ChatPaper.aiChatPaper

Die unvernünftige Wirksamkeit der Entropieminimierung beim LLM-Schlussfolgern

The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning

May 21, 2025
Autoren: Shivam Agarwal, Zimin Zhang, Lifan Yuan, Jiawei Han, Hao Peng
cs.AI

Zusammenfassung

Die Entropieminimierung (EM) trainiert das Modell, noch mehr Wahrscheinlichkeitsmasse auf seine zuversichtlichsten Ausgaben zu konzentrieren. Wir zeigen, dass dieses einfache Ziel allein, ohne jegliche annotierte Daten, die Leistung großer Sprachmodelle (LLMs) bei anspruchsvollen Aufgaben in Mathematik, Physik und Programmierung erheblich verbessern kann. Wir untersuchen drei Ansätze: (1) EM-FT minimiert die Token-Entropie ähnlich wie beim Instruction Finetuning, jedoch auf unmarkierten Ausgaben, die vom Modell selbst stammen; (2) EM-RL: Reinforcement Learning mit negativer Entropie als einziger zu maximierender Belohnung; (3) EM-INF: Logit-Anpassung zur Inferenzzeit, um die Entropie ohne Trainingsdaten oder Parameteraktualisierungen zu reduzieren. Bei Qwen-7B erreicht EM-RL, ohne jegliche annotierte Daten, vergleichbare oder bessere Leistung als starke RL-Baselines wie GRPO und RLOO, die auf 60.000 annotierten Beispielen trainiert wurden. Darüber hinaus ermöglicht EM-INF Qwen-32B, die Leistung proprietärer Modelle wie GPT-4o, Claude 3 Opus und Gemini 1.5 Pro auf dem anspruchsvollen SciCode-Benchmark zu erreichen oder zu übertreffen, während es 3-mal effizienter ist als Selbstkonsistenz und sequenzielle Verfeinerung. Unsere Ergebnisse zeigen, dass viele vortrainierte LLMs bisher unterschätzte Fähigkeiten zur logischen Schlussfolgerung besitzen, die allein durch Entropieminimierung effektiv aktiviert werden können, ohne annotierte Daten oder sogar Parameteraktualisierungen.
English
Entropy minimization (EM) trains the model to concentrate even more probability mass on its most confident outputs. We show that this simple objective alone, without any labeled data, can substantially improve large language models' (LLMs) performance on challenging math, physics, and coding tasks. We explore three approaches: (1) EM-FT minimizes token-level entropy similarly to instruction finetuning, but on unlabeled outputs drawn from the model; (2) EM-RL: reinforcement learning with negative entropy as the only reward to maximize; (3) EM-INF: inference-time logit adjustment to reduce entropy without any training data or parameter updates. On Qwen-7B, EM-RL, without any labeled data, achieves comparable or better performance than strong RL baselines such as GRPO and RLOO that are trained on 60K labeled examples. Furthermore, EM-INF enables Qwen-32B to match or exceed the performance of proprietary models like GPT-4o, Claude 3 Opus, and Gemini 1.5 Pro on the challenging SciCode benchmark, while being 3x more efficient than self-consistency and sequential refinement. Our findings reveal that many pretrained LLMs possess previously underappreciated reasoning capabilities that can be effectively elicited through entropy minimization alone, without any labeled data or even any parameter updates.

Summary

AI-Generated Summary

PDF12May 22, 2025