L'Irragionevole Efficacia della Minimizzazione dell'Entropia nel Ragionamento dei Modelli Linguistici
The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning
May 21, 2025
Autori: Shivam Agarwal, Zimin Zhang, Lifan Yuan, Jiawei Han, Hao Peng
cs.AI
Abstract
La minimizzazione dell'entropia (EM) addestra il modello a concentrare una massa di probabilità ancora maggiore sui suoi output più confidenti. Dimostriamo che questo semplice obiettivo, da solo e senza alcun dato etichettato, può migliorare sostanzialmente le prestazioni dei grandi modelli linguistici (LLMs) su compiti impegnativi di matematica, fisica e programmazione. Esploriamo tre approcci: (1) EM-FT minimizza l'entropia a livello di token in modo simile al fine-tuning su istruzioni, ma su output non etichettati generati dal modello; (2) EM-RL: apprendimento per rinforzo con l'entropia negativa come unica ricompensa da massimizzare; (3) EM-INF: aggiustamento dei logit al momento dell'inferenza per ridurre l'entropia senza alcun dato di addestramento o aggiornamento dei parametri. Su Qwen-7B, EM-RL, senza alcun dato etichettato, raggiunge prestazioni comparabili o migliori rispetto a forti baseline di RL come GRPO e RLOO addestrate su 60K esempi etichettati. Inoltre, EM-INF consente a Qwen-32B di eguagliare o superare le prestazioni di modelli proprietari come GPT-4o, Claude 3 Opus e Gemini 1.5 Pro sul benchmark impegnativo di SciCode, pur essendo 3 volte più efficiente rispetto all'autoconsistenza e al raffinamento sequenziale. I nostri risultati rivelano che molti LLMs pre-addestrati possiedono capacità di ragionamento precedentemente sottovalutate che possono essere efficacemente elicitare attraverso la sola minimizzazione dell'entropia, senza alcun dato etichettato o persino aggiornamenti dei parametri.
English
Entropy minimization (EM) trains the model to concentrate even more
probability mass on its most confident outputs. We show that this simple
objective alone, without any labeled data, can substantially improve large
language models' (LLMs) performance on challenging math, physics, and coding
tasks. We explore three approaches: (1) EM-FT minimizes token-level entropy
similarly to instruction finetuning, but on unlabeled outputs drawn from the
model; (2) EM-RL: reinforcement learning with negative entropy as the only
reward to maximize; (3) EM-INF: inference-time logit adjustment to reduce
entropy without any training data or parameter updates. On Qwen-7B, EM-RL,
without any labeled data, achieves comparable or better performance than strong
RL baselines such as GRPO and RLOO that are trained on 60K labeled examples.
Furthermore, EM-INF enables Qwen-32B to match or exceed the performance of
proprietary models like GPT-4o, Claude 3 Opus, and Gemini 1.5 Pro on the
challenging SciCode benchmark, while being 3x more efficient than
self-consistency and sequential refinement. Our findings reveal that many
pretrained LLMs possess previously underappreciated reasoning capabilities that
can be effectively elicited through entropy minimization alone, without any
labeled data or even any parameter updates.