Raciocínio como Compressão: Unificando o Forçamento Orçamentário através do Princípio do Gargalo de Informação Condicional
Reasoning as Compression: Unifying Budget Forcing via the Conditional Information Bottleneck
March 9, 2026
Autores: Fabio Valerio Massoli, Andrey Kuzmin, Arash Behboodi
cs.AI
Resumo
A técnica de Chain-of-Thought (CoT) melhora a precisão de LLMs em tarefas complexas, mas frequentemente aumenta o uso de tokens e o custo de inferência. Os métodos existentes de "Budget Forcing", que reduzem custos via fine-tuning com penalidades de comprimento heurísticas, suprimem tanto o raciocínio essencial quanto o preenchimento redundante. Nós reformulamos o raciocínio eficiente como um problema de compressão com perdas sob o princípio do *Information Bottleneck* (IB) e identificamos uma lacuna teórica crucial ao aplicar o IB ingênuo a transformadores: a atenção viola a propriedade de Markov entre o prompt, o rastro de raciocínio e a resposta. Para resolver esta questão, modelamos a geração de CoT sob o princípio do *Conditional Information Bottleneck* (CIB), onde o rastro de raciocínio Z atua como uma ponte computacional que contém apenas a informação sobre a resposta Y que não é diretamente acessível a partir do prompt X. Isto resulta num objetivo geral de *Reinforcement Learning*: maximizar a recompensa da tarefa enquanto se comprimem as conclusões sob uma distribuição prévia (*prior*) sobre os rastros de raciocínio, englobando heurísticas comuns (ex.: penalidades de comprimento) como casos especiais (ex.: distribuições prévias uniformes). Em contraste com abordagens ingênuas baseadas na contagem de tokens, introduzimos uma distribuição prévia semântica que mede o custo do token pela surpresa (*surprisal*) sob uma distribuição prévia de modelo de linguagem. Empiricamente, o nosso objetivo CIB elimina o inchaço cognitivo enquanto preserva a fluência e a lógica, melhorando a precisão em compressão moderada e permitindo compressão agressiva com queda mínima de precisão.
English
Chain-of-Thought (CoT) prompting improves LLM accuracy on complex tasks but often increases token usage and inference cost. Existing "Budget Forcing" methods reducing cost via fine-tuning with heuristic length penalties, suppress both essential reasoning and redundant filler. We recast efficient reasoning as a lossy compression problem under the Information Bottleneck (IB) principle, and identify a key theoretical gap when applying naive IB to transformers: attention violates the Markov property between prompt, reasoning trace, and response. To resolve this issue, we model CoT generation under the Conditional Information Bottleneck (CIB) principle, where the reasoning trace Z acts as a computational bridge that contains only the information about the response Y that is not directly accessible from the prompt X. This yields a general Reinforcement Learning objective: maximize task reward while compressing completions under a prior over reasoning traces, subsuming common heuristics (e.g., length penalties) as special cases (e.g., uniform priors). In contrast to naive token-counting-based approaches, we introduce a semantic prior that measures token cost by surprisal under a language model prior. Empirically, our CIB objective prunes cognitive bloat while preserving fluency and logic, improving accuracy at moderate compression and enabling aggressive compression with minimal accuracy drop.