Razonamiento como Compresión: Unificando el Forzado Presupuestario mediante el Cuello de Botella de Información Condicional

Resumen

El prompting de Cadena de Pensamiento (CoT) mejora la precisión de los LLM en tareas complejas, pero a menudo incrementa el uso de tokens y el coste de inferencia. Los métodos existentes de "Forzado Presupuestario", que reducen costes mediante fine-tuning con penalizaciones heurísticas de longitud, suprimen tanto el razonamiento esencial como el contenido redundante. Replanteamos el razonamiento eficiente como un problema de compresión con pérdidas bajo el principio del Cuello de Botella de Información (IB), e identificamos una brecha teórica clave al aplicar IB ingenuo a transformadores: la atención viola la propiedad de Markov entre el prompt, la traza de razonamiento y la respuesta. Para resolver este problema, modelamos la generación de CoT bajo el principio del Cuello de Botella de Información Condicional (CIB), donde la traza de razonamiento Z actúa como un puente computacional que contiene solo la información sobre la respuesta Y que no es directamente accesible desde el prompt X. Esto produce un objetivo general de Aprendizaje por Refuerzo: maximizar la recompensa de la tarea mientras se comprimen las completamientos bajo una distribución previa sobre las trazas de razonamiento, englobando heurísticas comunes (por ejemplo, penalizaciones de longitud) como casos especiales (por ejemplo, distribuciones previas uniformes). En contraste con los enfoques ingenuos basados en el recuento de tokens, introducimos una distribución previa semántica que mide el coste de los tokens mediante la sorpresa bajo una distribución previa de modelo de lenguaje. Empíricamente, nuestro objetivo CIB elimina la redundancia cognitiva preservando fluidez y lógica, mejorando la precisión en compresiones moderadas y permitiendo compresiones agresivas con una caída mínima de precisión.

English

Chain-of-Thought (CoT) prompting improves LLM accuracy on complex tasks but often increases token usage and inference cost. Existing "Budget Forcing" methods reducing cost via fine-tuning with heuristic length penalties, suppress both essential reasoning and redundant filler. We recast efficient reasoning as a lossy compression problem under the Information Bottleneck (IB) principle, and identify a key theoretical gap when applying naive IB to transformers: attention violates the Markov property between prompt, reasoning trace, and response. To resolve this issue, we model CoT generation under the Conditional Information Bottleneck (CIB) principle, where the reasoning trace Z acts as a computational bridge that contains only the information about the response Y that is not directly accessible from the prompt X. This yields a general Reinforcement Learning objective: maximize task reward while compressing completions under a prior over reasoning traces, subsuming common heuristics (e.g., length penalties) as special cases (e.g., uniform priors). In contrast to naive token-counting-based approaches, we introduce a semantic prior that measures token cost by surprisal under a language model prior. Empirically, our CIB objective prunes cognitive bloat while preserving fluency and logic, improving accuracy at moderate compression and enabling aggressive compression with minimal accuracy drop.

Razonamiento como Compresión: Unificando el Forzado Presupuestario mediante el Cuello de Botella de Información Condicional

Reasoning as Compression: Unifying Budget Forcing via the Conditional Information Bottleneck

Resumen

Support