ChatPaper.aiChatPaper

A Eficácia Irracional da Minimização de Entropia no Raciocínio de LLMs

The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning

May 21, 2025
Autores: Shivam Agarwal, Zimin Zhang, Lifan Yuan, Jiawei Han, Hao Peng
cs.AI

Resumo

A minimização de entropia (EM) treina o modelo para concentrar ainda mais a massa de probabilidade em suas previsões mais confiantes. Mostramos que esse objetivo simples, sem qualquer dado rotulado, pode melhorar substancialmente o desempenho de grandes modelos de linguagem (LLMs) em tarefas desafiadoras de matemática, física e programação. Exploramos três abordagens: (1) EM-FT minimiza a entropia no nível de tokens de forma semelhante ao ajuste fino por instrução, mas em saídas não rotuladas geradas pelo próprio modelo; (2) EM-RL: aprendizado por reforço com a entropia negativa como única recompensa a ser maximizada; (3) EM-INF: ajuste de logits durante a inferência para reduzir a entropia sem a necessidade de dados de treinamento ou atualizações de parâmetros. No Qwen-7B, o EM-RL, sem qualquer dado rotulado, alcança desempenho comparável ou superior a fortes baselines de RL, como GRPO e RLOO, que são treinados com 60 mil exemplos rotulados. Além disso, o EM-INF permite que o Qwen-32B iguale ou supere o desempenho de modelos proprietários como GPT-4o, Claude 3 Opus e Gemini 1.5 Pro no benchmark desafiador SciCode, sendo 3 vezes mais eficiente do que a autoconsistência e o refinamento sequencial. Nossas descobertas revelam que muitos LLMs pré-treinados possuem capacidades de raciocínio subestimadas que podem ser efetivamente eliciadas apenas por meio da minimização de entropia, sem a necessidade de dados rotulados ou mesmo atualizações de parâmetros.
English
Entropy minimization (EM) trains the model to concentrate even more probability mass on its most confident outputs. We show that this simple objective alone, without any labeled data, can substantially improve large language models' (LLMs) performance on challenging math, physics, and coding tasks. We explore three approaches: (1) EM-FT minimizes token-level entropy similarly to instruction finetuning, but on unlabeled outputs drawn from the model; (2) EM-RL: reinforcement learning with negative entropy as the only reward to maximize; (3) EM-INF: inference-time logit adjustment to reduce entropy without any training data or parameter updates. On Qwen-7B, EM-RL, without any labeled data, achieves comparable or better performance than strong RL baselines such as GRPO and RLOO that are trained on 60K labeled examples. Furthermore, EM-INF enables Qwen-32B to match or exceed the performance of proprietary models like GPT-4o, Claude 3 Opus, and Gemini 1.5 Pro on the challenging SciCode benchmark, while being 3x more efficient than self-consistency and sequential refinement. Our findings reveal that many pretrained LLMs possess previously underappreciated reasoning capabilities that can be effectively elicited through entropy minimization alone, without any labeled data or even any parameter updates.
PDF62December 8, 2025