Plus profond n’est pas toujours mieux : atténuer la taxe d’alignement via le décodage par couche confiante

Résumé

La génération autorégressive dans les grands modèles de langage (LLMs) décode classiquement à partir de la dernière couche, en supposant que les représentations plus profondes produisent des prédictions de jetons plus fiables. Nous remettons en question cette hypothèse en révélant une dynamique récurrente d'Estimation-Affinement-Perturbation : les premières couches forment des estimations grossières, les couches intermédiaires affinent les sémantiques liées au raisonnement, et les dernières couches peuvent perturber ces prédictions affinées vers des jetons génériques ou préférés par l'alignement. Nous introduisons le Décodage Confiant, une stratégie de décodage sans entraînement qui sélectionne dynamiquement la couche quasi-finale la plus fiable via une recherche arrière conservatrice guidée par l'entropie. Nous fournissons également une formulation théorique de la sélection de couche comme un problème d'arrêt optimal, montrant que sous un bruit de projection borné et une perturbation d'alignement dominante en phase tardive, notre règle de recherche filtre la perturbation tout en limitant la perte par rapport à la couche d'affinement oracle. Des expériences sur des LLMs denses et à mélange d'experts (MoE) montrent des gains constants sur des benchmarks de raisonnement exigeants, notamment GPQA-Diamond, Omni-MATH et HLE, avec une surcharge mémoire nulle et une augmentation de latence inférieure à 2 %. Ces résultats suggèrent que contourner dynamiquement les perturbations des dernières couches peut débloquer un comportement de raisonnement plus fort chez les LLMs alignés.

English

Autoregressive generation in large language models (LLMs) conventionally decodes from the final layer, assuming that deeper representations yield more reliable next-token predictions. We revisit this assumption by revealing a recurring Guess-Refine-Perturb dynamic: early layers form coarse guesses, intermediate layers refine reasoning-relevant semantics, and final layers can perturb these refined predictions toward generic or alignment-preferred tokens. We introduce Confident Decoding, a training-free decoding strategy that dynamically selects the most reliable near-final layer through entropy-guided conservative backward search. We further provide a theoretical formulation of layer selection as an optimal stopping problem, showing that under bounded projection noise and dominant late-stage alignment perturbation, our search rule filters perturbation while bounding the loss relative to the oracle refinement layer. Experiments across dense and Mixture-of-Experts LLMs demonstrate consistent gains on challenging reasoning benchmarks, including GPQA-Diamond, Omni-MATH, and HLE, with zero memory overhead and less than 2% latency increase. These results suggest dynamically bypassing final-layer perturbations can unlock stronger reasoning behavior from aligned LLMs.