Глубже не всегда лучше: смягчение налога на согласование с помощью декодирования уверенных слоев
Deeper is Not Always Better: Mitigating the Alignment Tax via Confident Layer Decoding
June 20, 2026
Авторы: Xuanming Zhang, Sining Zhoubian, Yuxuan Chen, Tianyi Tang, An Yang, Sean Du, Chujie Zheng, Fei Huang, Dayiheng Liu, Gao Huang, Jingren Zhou
cs.AI
Аннотация
В авторегрессионной генерации больших языковых моделей (LLM) традиционно декодирование выполняется с последнего слоя в предположении, что более глубокие представления обеспечивают более надежные предсказания следующего токена. Мы пересматриваем это предположение, выявляя повторяющуюся динамику «угадывание–уточнение–возмущение»: ранние слои формируют грубые догадки, промежуточные слои уточняют семантику, релевантную для рассуждений, а последние слои могут возмущать эти уточненные предсказания в сторону общих токенов или токенов, предпочитаемых при выравнивании. Мы представляем уверенное декодирование (Confident Decoding) — стратегию декодирования без обучения, которая динамически выбирает наиболее надежный слой, близкий к последнему, с помощью энтропийно-управляемого консервативного обратного поиска. Кроме того, мы даем теоретическую формулировку выбора слоя как задачи оптимальной остановки, показывая, что при ограниченном проекционном шуме и доминирующем возмущении выравнивания на поздних этапах наше правило поиска фильтрует возмущение, ограничивая потери относительно оракульного слоя уточнения. Эксперименты на плотных и смешанно-экспертных LLM демонстрируют последовательный прирост в сложных бенчмарках рассуждений, включая GPQA-Diamond, Omni-MATH и HLE, с нулевыми дополнительными затратами памяти и увеличением задержки менее чем на 2%. Эти результаты указывают на то, что динамическое обход возмущений последнего слоя может раскрыть более сильное поведение при рассуждениях у выровненных LLM.
English
Autoregressive generation in large language models (LLMs) conventionally decodes from the final layer, assuming that deeper representations yield more reliable next-token predictions. We revisit this assumption by revealing a recurring Guess-Refine-Perturb dynamic: early layers form coarse guesses, intermediate layers refine reasoning-relevant semantics, and final layers can perturb these refined predictions toward generic or alignment-preferred tokens. We introduce Confident Decoding, a training-free decoding strategy that dynamically selects the most reliable near-final layer through entropy-guided conservative backward search. We further provide a theoretical formulation of layer selection as an optimal stopping problem, showing that under bounded projection noise and dominant late-stage alignment perturbation, our search rule filters perturbation while bounding the loss relative to the oracle refinement layer. Experiments across dense and Mixture-of-Experts LLMs demonstrate consistent gains on challenging reasoning benchmarks, including GPQA-Diamond, Omni-MATH, and HLE, with zero memory overhead and less than 2% latency increase. These results suggest dynamically bypassing final-layer perturbations can unlock stronger reasoning behavior from aligned LLMs.