ChatPaper.aiChatPaper

De onredelijke effectiviteit van entropieminimalisatie in LLM-redenering

The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning

May 21, 2025
Auteurs: Shivam Agarwal, Zimin Zhang, Lifan Yuan, Jiawei Han, Hao Peng
cs.AI

Samenvatting

Entropie-minimalisatie (EM) traint het model om nog meer waarschijnlijkheidsmassa te concentreren op zijn meest zelfverzekerde uitvoer. We laten zien dat dit eenvoudige doel alleen, zonder gelabelde data, de prestaties van grote taalmmodellen (LLMs) aanzienlijk kan verbeteren op uitdagende taken op het gebied van wiskunde, natuurkunde en programmeren. We onderzoeken drie benaderingen: (1) EM-FT minimaliseert entropie op tokenniveau, vergelijkbaar met instructie-finetuning, maar op niet-gelabelde uitvoer gegenereerd door het model; (2) EM-RL: reinforcement learning met negatieve entropie als enige te maximaliseren beloning; (3) EM-INF: aanpassing van logits tijdens inferentie om entropie te verminderen zonder trainingsdata of parameterupdates. Op Qwen-7B bereikt EM-RL, zonder gelabelde data, vergelijkbare of betere prestaties dan sterke RL-baselines zoals GRPO en RLOO die getraind zijn op 60K gelabelde voorbeelden. Bovendien stelt EM-INF Qwen-32B in staat om de prestaties van propriëtaire modellen zoals GPT-4o, Claude 3 Opus en Gemini 1.5 Pro te evenaren of te overtreffen op de uitdagende SciCode-benchmark, terwijl het 3x efficiënter is dan zelfconsistentie en sequentiële verfijning. Onze bevindingen onthullen dat veel voorgetrainde LLMs eerder onderschatte redeneervaardigheden bezitten die effectief kunnen worden aangesproken door entropie-minimalisatie alleen, zonder gelabelde data of zelfs parameterupdates.
English
Entropy minimization (EM) trains the model to concentrate even more probability mass on its most confident outputs. We show that this simple objective alone, without any labeled data, can substantially improve large language models' (LLMs) performance on challenging math, physics, and coding tasks. We explore three approaches: (1) EM-FT minimizes token-level entropy similarly to instruction finetuning, but on unlabeled outputs drawn from the model; (2) EM-RL: reinforcement learning with negative entropy as the only reward to maximize; (3) EM-INF: inference-time logit adjustment to reduce entropy without any training data or parameter updates. On Qwen-7B, EM-RL, without any labeled data, achieves comparable or better performance than strong RL baselines such as GRPO and RLOO that are trained on 60K labeled examples. Furthermore, EM-INF enables Qwen-32B to match or exceed the performance of proprietary models like GPT-4o, Claude 3 Opus, and Gemini 1.5 Pro on the challenging SciCode benchmark, while being 3x more efficient than self-consistency and sequential refinement. Our findings reveal that many pretrained LLMs possess previously underappreciated reasoning capabilities that can be effectively elicited through entropy minimization alone, without any labeled data or even any parameter updates.
PDF62May 22, 2025