Cómo la alineación reduce el horizonte generativo
How Alignment Shrinks the Generative Horizon
June 22, 2025
Autores: Chenghao Yang, Ari Holtzman
cs.AI
Resumen
A pesar de sus impresionantes capacidades, los modelos de lenguaje grandes alineados (LLMs, por sus siglas en inglés) a menudo generan resultados que carecen de diversidad. ¿Qué impulsa esta estabilidad en la generación? Investigamos este fenómeno a través del lente de la concentración de probabilidad en la distribución de salida del modelo. Para cuantificar esta concentración, introducimos el Factor de Ramificación (BF, por sus siglas en inglés) —una medida invariante de tokens que evalúa el número efectivo de pasos plausibles siguientes durante la generación. Nuestro análisis empírico revela dos hallazgos clave: (1) el BF a menudo disminuye a medida que avanza la generación, lo que sugiere que los LLMs se vuelven más predecibles a medida que generan. (2) el ajuste de alineación agudiza sustancialmente la distribución de salida del modelo desde el principio, reduciendo el BF en casi un orden de magnitud (por ejemplo, de 12 a 1.2) en comparación con los modelos base. Esta reducción drástica ayuda a explicar por qué los modelos alineados a menudo parecen menos sensibles a las estrategias de decodificación. Basándonos en esta idea, encontramos que esta estabilidad tiene implicaciones sorprendentes para el razonamiento complejo. Los modelos alineados de Cadena de Pensamiento (CoT, por sus siglas en inglés) (por ejemplo, los modelos destilados de DeepSeek), por ejemplo, aprovechan este efecto; al generar cadenas de razonamiento más largas, llevan la generación a etapas posteriores, más deterministas (con BF más bajo), lo que resulta en salidas más estables. Hipotetizamos que el ajuste de alineación no cambia fundamentalmente el comportamiento de un modelo, sino que lo dirige hacia tokens estilísticos (por ejemplo, "Claro") que desbloquean trayectorias de baja entropía ya presentes en el modelo base. Esta visión está respaldada por experimentos de empuje, que muestran que al incitar a los modelos base con dichos tokens se puede reducir el BF de manera similar. En conjunto, nuestros hallazgos establecen el BF como una herramienta diagnóstica poderosa para comprender y controlar las salidas de los LLMs —aclarando cómo la alineación reduce la variabilidad, cómo el CoT promueve generaciones estables y cómo los modelos base pueden ser dirigidos lejos de la diversidad.
English
Despite their impressive capabilities, aligned large language models (LLMs)
often generate outputs that lack diversity. What drives this stability in the
generation? We investigate this phenomenon through the lens of probability
concentration in the model's output distribution. To quantify this
concentration, we introduce the Branching Factor (BF) -- a token-invariant
measure of the effective number of plausible next steps during generation. Our
empirical analysis reveals two key findings: (1) BF often decreases as
generation progresses, suggesting that LLMs become more predictable as they
generate. (2) alignment tuning substantially sharpens the model's output
distribution from the outset, reducing BF by nearly an order of magnitude
(e.g., from 12 to 1.2) relative to base models. This stark reduction helps
explain why aligned models often appear less sensitive to decoding strategies.
Building on this insight, we find this stability has surprising implications
for complex reasoning. Aligned Chain-of-Thought (CoT) models (e.g.,
DeepSeek-distilled models), for instance, leverage this effect; by generating
longer reasoning chains, they push generation into later, more deterministic
(lower BF) stages, resulting in more stable outputs. We hypothesize that
alignment tuning does not fundamentally change a model's behavior, but instead
steers it toward stylistic tokens (e.g., "Sure") that unlock low-entropy
trajectories already present in the base model. This view is supported by
nudging experiments, which show that prompting base models with such tokens can
similarly reduce BF. Together, our findings establish BF as a powerful
diagnostic for understanding and controlling LLM outputs - clarifying how
alignment reduces variability, how CoT promotes stable generations, and how
base models can be steered away from diversity.