Schlussfolgern als Kompression: Vereinheitlichung von Budget Forcing durch das bedingte Informationsflaschenhals-Prinzip
Reasoning as Compression: Unifying Budget Forcing via the Conditional Information Bottleneck
March 9, 2026
Autoren: Fabio Valerio Massoli, Andrey Kuzmin, Arash Behboodi
cs.AI
Zusammenfassung
Chain-of-Thought (CoT)-Prompting verbessert zwar die Genauigkeit von LLMs bei komplexen Aufgaben, erhöht jedoch oft den Token-Verbrauch und die Inferenzkosten. Bestehende "Budget Forcing"-Methoden, die Kosten durch Fine-Tuning mit heuristischen Längenstrafen reduzieren, unterdrücken sowohl essentielle Schlussfolgerungen als auch redundantes Füllmaterial. Wir formulieren effizientes Reasoning als Problem der verlustbehafteten Kompression nach dem Information-Bottleneck (IB)-Prinzip und identifizieren eine grundlegende theoretische Lücke bei der Anwendung eines naiven IB auf Transformer: Attention verletzt die Markov-Eigenschaft zwischen Prompt, Reasoning-Trace und Antwort. Um dieses Problem zu lösen, modellieren wir die CoT-Generierung nach dem Prinzip des Conditional Information Bottleneck (CIB), bei dem der Reasoning-Trace Z als computationale Brücke fungiert, die nur die Informationen über die Antwort Y enthält, die nicht direkt aus dem Prompt X abgeleitet werden können. Dies führt zu einem allgemeinen Reinforcement-Learning-Ziel: Maximierung der Aufgabenbelohnung bei gleichzeitiger Komprimierung der Completions unter einer A-priori-Verteilung über Reasoning-Traces, wobei gängige Heuristiken (z.B. Längenstrafen) als Spezialfälle (z.B. uniforme Priors) subsumiert werden. Im Gegensatz zu naiven, tokenzählbasierten Ansätzen führen wir einen semantischen Prior ein, der Token-Kosten durch Surprisal unter einem Sprachmodell-Prior misst. Empirisch zeigt unser CIB-Ziel, dass kognitive Überfrachtung reduziert wird, während Flüssigkeit und Logik erhalten bleiben; es verbessert die Genauigkeit bei moderater Kompression und ermöglicht aggressive Kompression mit minimalem Genauigkeitsverlust.
English
Chain-of-Thought (CoT) prompting improves LLM accuracy on complex tasks but often increases token usage and inference cost. Existing "Budget Forcing" methods reducing cost via fine-tuning with heuristic length penalties, suppress both essential reasoning and redundant filler. We recast efficient reasoning as a lossy compression problem under the Information Bottleneck (IB) principle, and identify a key theoretical gap when applying naive IB to transformers: attention violates the Markov property between prompt, reasoning trace, and response. To resolve this issue, we model CoT generation under the Conditional Information Bottleneck (CIB) principle, where the reasoning trace Z acts as a computational bridge that contains only the information about the response Y that is not directly accessible from the prompt X. This yields a general Reinforcement Learning objective: maximize task reward while compressing completions under a prior over reasoning traces, subsuming common heuristics (e.g., length penalties) as special cases (e.g., uniform priors). In contrast to naive token-counting-based approaches, we introduce a semantic prior that measures token cost by surprisal under a language model prior. Empirically, our CIB objective prunes cognitive bloat while preserving fluency and logic, improving accuracy at moderate compression and enabling aggressive compression with minimal accuracy drop.