ChatPaper.aiChatPaper

Come l'Allineamento Riduce l'Orizzonte Generativo

How Alignment Shrinks the Generative Horizon

June 22, 2025
Autori: Chenghao Yang, Ari Holtzman
cs.AI

Abstract

Nonostante le loro impressionanti capacità, i grandi modelli linguistici allineati (LLM) spesso generano output che mancano di diversità. Cosa guida questa stabilità nella generazione? Investigiamo questo fenomeno attraverso la lente della concentrazione di probabilità nella distribuzione di output del modello. Per quantificare questa concentrazione, introduciamo il Fattore di Ramificazione (Branching Factor, BF) — una misura invariante rispetto ai token del numero effettivo di passi plausibili successivi durante la generazione. La nostra analisi empirica rivela due risultati chiave: (1) Il BF spesso diminuisce man mano che la generazione procede, suggerendo che i LLM diventano più prevedibili mentre generano. (2) L'ottimizzazione per l'allineamento affina sostanzialmente la distribuzione di output del modello fin dall'inizio, riducendo il BF di quasi un ordine di grandezza (ad esempio, da 12 a 1,2) rispetto ai modelli di base. Questa drastica riduzione aiuta a spiegare perché i modelli allineati spesso appaiono meno sensibili alle strategie di decodifica. Basandoci su questa intuizione, scopriamo che questa stabilità ha implicazioni sorprendenti per il ragionamento complesso. I modelli allineati con Catena di Pensiero (Chain-of-Thought, CoT) (ad esempio, i modelli distillati DeepSeek), per esempio, sfruttano questo effetto; generando catene di ragionamento più lunghe, spingono la generazione verso fasi successive più deterministiche (con BF più basso), ottenendo output più stabili. Ipotesizziamo che l'ottimizzazione per l'allineamento non cambi fondamentalmente il comportamento di un modello, ma lo indirizzi verso token stilistici (ad esempio, "Certamente") che sbloccano traiettorie a bassa entropia già presenti nel modello di base. Questa visione è supportata da esperimenti di "nudging", che mostrano che suggerire ai modelli di base tali token può ridurre in modo simile il BF. Insieme, i nostri risultati stabiliscono il BF come un potente strumento diagnostico per comprendere e controllare gli output dei LLM — chiarendo come l'allineamento riduca la variabilità, come il CoT promuova generazioni stabili e come i modelli di base possano essere indirizzati lontano dalla diversità.
English
Despite their impressive capabilities, aligned large language models (LLMs) often generate outputs that lack diversity. What drives this stability in the generation? We investigate this phenomenon through the lens of probability concentration in the model's output distribution. To quantify this concentration, we introduce the Branching Factor (BF) -- a token-invariant measure of the effective number of plausible next steps during generation. Our empirical analysis reveals two key findings: (1) BF often decreases as generation progresses, suggesting that LLMs become more predictable as they generate. (2) alignment tuning substantially sharpens the model's output distribution from the outset, reducing BF by nearly an order of magnitude (e.g., from 12 to 1.2) relative to base models. This stark reduction helps explain why aligned models often appear less sensitive to decoding strategies. Building on this insight, we find this stability has surprising implications for complex reasoning. Aligned Chain-of-Thought (CoT) models (e.g., DeepSeek-distilled models), for instance, leverage this effect; by generating longer reasoning chains, they push generation into later, more deterministic (lower BF) stages, resulting in more stable outputs. We hypothesize that alignment tuning does not fundamentally change a model's behavior, but instead steers it toward stylistic tokens (e.g., "Sure") that unlock low-entropy trajectories already present in the base model. This view is supported by nudging experiments, which show that prompting base models with such tokens can similarly reduce BF. Together, our findings establish BF as a powerful diagnostic for understanding and controlling LLM outputs - clarifying how alignment reduces variability, how CoT promotes stable generations, and how base models can be steered away from diversity.
PDF71June 24, 2025