Tiefer ist nicht immer besser: Abschwächung der Alignment Tax durch Confident Layer Decoding

Zusammenfassung

Die autoregressive Generierung in großen Sprachmodellen (LLMs) dekodiert herkömmlicherweise aus der letzten Schicht, unter der Annahme, dass tiefere Repräsentationen zuverlässigere Vorhersagen des nächsten Tokens liefern. Wir überprüfen diese Annahme, indem wir eine wiederkehrende Guess-Refine-Perturb-Dynamik aufdecken: frühe Schichten bilden grobe Schätzungen, mittlere Schichten verfeinern reasoning-relevante Semantiken, und letzte Schichten können diese verfeinerten Vorhersagen in Richtung generischer oder alignment-präferierter Tokens stören. Wir führen Confident Decoding ein, eine trainingsfreie Dekodierungsstrategie, die dynamisch die zuverlässigste nahezu letzte Schicht durch entropiegesteuerte konservative Rückwärtssuche auswählt. Wir liefern ferner eine theoretische Formulierung der Schichtauswahl als optimales Stoppproblem und zeigen, dass unter beschränktem Projektionsrauschen und dominanter späten Alignment-Störung unsere Suchregel die Störung filtert, während sie den Verlust relativ zur Orakel-Verfeinerungsschicht begrenzt. Experimente mit dichten und Mixture-of-Experts-LLMs zeigen konsistente Verbesserungen bei anspruchsvollen Reasoning-Benchmarks, darunter GPQA-Diamond, Omni-MATH und HLE, bei null Speicher-Overhead und weniger als 2 % Latenzsteigerung. Diese Ergebnisse legen nahe, dass das dynamische Umgehen von Störungen in den letzten Schichten ein stärkeres Reasoning-Verhalten ausgerichteter LLMs freisetzen kann.

English

Autoregressive generation in large language models (LLMs) conventionally decodes from the final layer, assuming that deeper representations yield more reliable next-token predictions. We revisit this assumption by revealing a recurring Guess-Refine-Perturb dynamic: early layers form coarse guesses, intermediate layers refine reasoning-relevant semantics, and final layers can perturb these refined predictions toward generic or alignment-preferred tokens. We introduce Confident Decoding, a training-free decoding strategy that dynamically selects the most reliable near-final layer through entropy-guided conservative backward search. We further provide a theoretical formulation of layer selection as an optimal stopping problem, showing that under bounded projection noise and dominant late-stage alignment perturbation, our search rule filters perturbation while bounding the loss relative to the oracle refinement layer. Experiments across dense and Mixture-of-Experts LLMs demonstrate consistent gains on challenging reasoning benchmarks, including GPQA-Diamond, Omni-MATH, and HLE, with zero memory overhead and less than 2% latency increase. These results suggest dynamically bypassing final-layer perturbations can unlock stronger reasoning behavior from aligned LLMs.