L'efficacité déraisonnable de la minimisation de l'entropie dans le raisonnement des LLM
The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning
May 21, 2025
papers.authors: Shivam Agarwal, Zimin Zhang, Lifan Yuan, Jiawei Han, Hao Peng
cs.AI
papers.abstract
La minimisation de l'entropie (EM) entraîne le modèle à concentrer davantage la masse de probabilité sur ses sorties les plus confiantes. Nous démontrons que cet objectif simple, sans aucune donnée étiquetée, peut considérablement améliorer les performances des grands modèles de langage (LLMs) sur des tâches complexes en mathématiques, physique et programmation. Nous explorons trois approches : (1) EM-FT minimise l'entropie au niveau des tokens de manière similaire à l'affinage par instruction, mais sur des sorties non étiquetées générées par le modèle ; (2) EM-RL : apprentissage par renforcement avec l'entropie négative comme seule récompense à maximiser ; (3) EM-INF : ajustement des logits au moment de l'inférence pour réduire l'entropie sans aucune donnée d'entraînement ni mise à jour des paramètres. Sur Qwen-7B, EM-RL, sans aucune donnée étiquetée, atteint des performances comparables ou supérieures à celles des méthodes de renforcement robustes comme GRPO et RLOO, qui sont entraînées sur 60 000 exemples étiquetés. De plus, EM-INF permet à Qwen-32B de rivaliser ou de surpasser les performances de modèles propriétaires comme GPT-4o, Claude 3 Opus et Gemini 1.5 Pro sur le benchmark exigeant SciCode, tout en étant 3 fois plus efficace que l'auto-cohérence et le raffinement séquentiel. Nos résultats révèlent que de nombreux LLMs pré-entraînés possèdent des capacités de raisonnement sous-estimées qui peuvent être efficacement exploitées par la seule minimisation de l'entropie, sans aucune donnée étiquetée ni même de mise à jour des paramètres.
English
Entropy minimization (EM) trains the model to concentrate even more
probability mass on its most confident outputs. We show that this simple
objective alone, without any labeled data, can substantially improve large
language models' (LLMs) performance on challenging math, physics, and coding
tasks. We explore three approaches: (1) EM-FT minimizes token-level entropy
similarly to instruction finetuning, but on unlabeled outputs drawn from the
model; (2) EM-RL: reinforcement learning with negative entropy as the only
reward to maximize; (3) EM-INF: inference-time logit adjustment to reduce
entropy without any training data or parameter updates. On Qwen-7B, EM-RL,
without any labeled data, achieves comparable or better performance than strong
RL baselines such as GRPO and RLOO that are trained on 60K labeled examples.
Furthermore, EM-INF enables Qwen-32B to match or exceed the performance of
proprietary models like GPT-4o, Claude 3 Opus, and Gemini 1.5 Pro on the
challenging SciCode benchmark, while being 3x more efficient than
self-consistency and sequential refinement. Our findings reveal that many
pretrained LLMs possess previously underappreciated reasoning capabilities that
can be effectively elicited through entropy minimization alone, without any
labeled data or even any parameter updates.