推論としての圧縮:条件付き情報ボトルネックによる予算強制の統一
Reasoning as Compression: Unifying Budget Forcing via the Conditional Information Bottleneck
March 9, 2026
著者: Fabio Valerio Massoli, Andrey Kuzmin, Arash Behboodi
cs.AI
要旨
Chain-of-Thought (CoT) プロンプティングは複雑なタスクにおける大規模言語モデル(LLM)の精度向上に寄与するが、トークン使用量と推論コストの増加を招くことが多い。既存の「Budget Forcing」手法は、発見的な長さペナルティを用いたファインチューニングによりコスト削減を図るが、本質的な推論と冗長なフィラー文の両方を抑制してしまう。本研究では、効率的な推論を情報ボトルネック(IB)原理に基づく非可逆圧縮問題として再定義し、単純なIBをトランスフォーマーに適用した際の理論的ギャップ、すなわち注意機構がプロンプト・推論過程・応答間のマルコフ性を破綻させる点を明らかにする。この問題を解決するため、条件付き情報ボトルネック(CIB)原理に基づくCoT生成をモデル化する。ここでは推論過程Zが計算の橋渡し役として機能し、プロンプトXから直接得られない応答Yに関する情報のみを保持する。これにより、推論過程に関する事前分布の下で完了文を圧縮しつつタスク報酬を最大化する、一般的な強化学習の目的関数が導かれる。この枠組みは、一般的な発見的手法(例:長さペナルティ)を特殊ケース(例:一様事前分布)として包含する。単純なトークン数ベースの手法とは対照的に、我々は言語モデル事前分布におけるサプライザル(驚き度)によってトークンコストを測定する意味論的事前分布を導入する。実験により、CIB目的関数は認知的肥大を削減しつつ流暢性と論理性を維持し、適度な圧縮では精度を向上させ、強力な圧縮では精度低下を最小限に抑えることを実証する。
English
Chain-of-Thought (CoT) prompting improves LLM accuracy on complex tasks but often increases token usage and inference cost. Existing "Budget Forcing" methods reducing cost via fine-tuning with heuristic length penalties, suppress both essential reasoning and redundant filler. We recast efficient reasoning as a lossy compression problem under the Information Bottleneck (IB) principle, and identify a key theoretical gap when applying naive IB to transformers: attention violates the Markov property between prompt, reasoning trace, and response. To resolve this issue, we model CoT generation under the Conditional Information Bottleneck (CIB) principle, where the reasoning trace Z acts as a computational bridge that contains only the information about the response Y that is not directly accessible from the prompt X. This yields a general Reinforcement Learning objective: maximize task reward while compressing completions under a prior over reasoning traces, subsuming common heuristics (e.g., length penalties) as special cases (e.g., uniform priors). In contrast to naive token-counting-based approaches, we introduce a semantic prior that measures token cost by surprisal under a language model prior. Empirically, our CIB objective prunes cognitive bloat while preserving fluency and logic, improving accuracy at moderate compression and enabling aggressive compression with minimal accuracy drop.