ChatPaper.aiChatPaper

Dieper is Niet Altijd Beter: Beperking van de Afstemmingsbelasting door Zekere Laagdecodering

Deeper is Not Always Better: Mitigating the Alignment Tax via Confident Layer Decoding

June 20, 2026
Auteurs: Xuanming Zhang, Sining Zhoubian, Yuxuan Chen, Tianyi Tang, An Yang, Sean Du, Chujie Zheng, Fei Huang, Dayiheng Liu, Gao Huang, Jingren Zhou
cs.AI

Samenvatting

Autoregressieve generatie in grote taalmodellen (LLM's) decodeert conventioneel vanuit de laatste laag, ervan uitgaande dat diepere representaties betrouwbaardere volgende-token voorspellingen opleveren. We herzien deze aanname door een terugkerende Raad-Verfijn-Verstoor-dynamiek te onthullen: vroege lagen vormen grove schattingen, tussenliggende lagen verfijnen redeneerrelevante semantiek, en laatste lagen kunnen deze verfijnde voorspellingen verstoren richting generieke of op afstemming gerichte tokens. We introduceren Confident Decoding, een trainingsvrije decodeerstrategie die dynamisch de meest betrouwbare bijna-laatste laag selecteert door middel van entropiegeleid conservatief achterwaarts zoeken. We bieden verder een theoretische formulering van laagselectie als een optimaal stop-probleem, waarbij we aantonen dat onder begrensde projectieruis en dominante late-stage afstemmingsverstoring, onze zoekregel de verstoring filtert terwijl het verlies ten opzichte van de orakel-verfijningslaag wordt begrensd. Experimenten met dichte en Mixture-of-Experts LLM's tonen consistente winst aan op uitdagende redeneerbenchmarks, waaronder GPQA-Diamond, Omni-MATH en HLE, met nul geheugenoverhead en minder dan 2% latentietoename. Deze resultaten suggereren dat het dynamisch omzeilen van laatste-laag verstoringen sterker redeneergedrag uit afgestemde LLM's kan ontgrendelen.
English
Autoregressive generation in large language models (LLMs) conventionally decodes from the final layer, assuming that deeper representations yield more reliable next-token predictions. We revisit this assumption by revealing a recurring Guess-Refine-Perturb dynamic: early layers form coarse guesses, intermediate layers refine reasoning-relevant semantics, and final layers can perturb these refined predictions toward generic or alignment-preferred tokens. We introduce Confident Decoding, a training-free decoding strategy that dynamically selects the most reliable near-final layer through entropy-guided conservative backward search. We further provide a theoretical formulation of layer selection as an optimal stopping problem, showing that under bounded projection noise and dominant late-stage alignment perturbation, our search rule filters perturbation while bounding the loss relative to the oracle refinement layer. Experiments across dense and Mixture-of-Experts LLMs demonstrate consistent gains on challenging reasoning benchmarks, including GPQA-Diamond, Omni-MATH, and HLE, with zero memory overhead and less than 2% latency increase. These results suggest dynamically bypassing final-layer perturbations can unlock stronger reasoning behavior from aligned LLMs.