La Efectividad Irrazonable de la Minimización de Entropía en el Razonamiento de Modelos de Lenguaje Grande
The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning
May 21, 2025
Autores: Shivam Agarwal, Zimin Zhang, Lifan Yuan, Jiawei Han, Hao Peng
cs.AI
Resumen
La minimización de entropía (EM, por sus siglas en inglés) entrena al modelo para concentrar aún más la masa de probabilidad en sus salidas más confiadas. Demostramos que este objetivo simple por sí solo, sin ningún dato etiquetado, puede mejorar sustancialmente el rendimiento de los modelos de lenguaje grandes (LLMs) en tareas desafiantes de matemáticas, física y programación. Exploramos tres enfoques: (1) EM-FT minimiza la entropía a nivel de token de manera similar al ajuste fino por instrucciones, pero en salidas no etiquetadas generadas por el modelo; (2) EM-RL: aprendizaje por refuerzo con la entropía negativa como única recompensa a maximizar; (3) EM-INF: ajuste de logits en tiempo de inferencia para reducir la entropía sin necesidad de datos de entrenamiento ni actualizaciones de parámetros. En Qwen-7B, EM-RL, sin ningún dato etiquetado, logra un rendimiento comparable o superior al de líneas base fuertes de aprendizaje por refuerzo como GRPO y RLOO, que se entrenan con 60K ejemplos etiquetados. Además, EM-INF permite que Qwen-32B iguale o supere el rendimiento de modelos propietarios como GPT-4o, Claude 3 Opus y Gemini 1.5 Pro en el benchmark desafiante de SciCode, siendo 3 veces más eficiente que la autocoherencia y el refinamiento secuencial. Nuestros hallazgos revelan que muchos LLMs preentrenados poseen capacidades de razonamiento previamente subestimadas que pueden ser efectivamente elicitadas únicamente mediante la minimización de entropía, sin necesidad de datos etiquetados ni siquiera actualizaciones de parámetros.
English
Entropy minimization (EM) trains the model to concentrate even more
probability mass on its most confident outputs. We show that this simple
objective alone, without any labeled data, can substantially improve large
language models' (LLMs) performance on challenging math, physics, and coding
tasks. We explore three approaches: (1) EM-FT minimizes token-level entropy
similarly to instruction finetuning, but on unlabeled outputs drawn from the
model; (2) EM-RL: reinforcement learning with negative entropy as the only
reward to maximize; (3) EM-INF: inference-time logit adjustment to reduce
entropy without any training data or parameter updates. On Qwen-7B, EM-RL,
without any labeled data, achieves comparable or better performance than strong
RL baselines such as GRPO and RLOO that are trained on 60K labeled examples.
Furthermore, EM-INF enables Qwen-32B to match or exceed the performance of
proprietary models like GPT-4o, Claude 3 Opus, and Gemini 1.5 Pro on the
challenging SciCode benchmark, while being 3x more efficient than
self-consistency and sequential refinement. Our findings reveal that many
pretrained LLMs possess previously underappreciated reasoning capabilities that
can be effectively elicited through entropy minimization alone, without any
labeled data or even any parameter updates.Summary
AI-Generated Summary