수동 디코딩의 종말: 진정한 종단 간 언어 모델을 향하여
The End of Manual Decoding: Towards Truly End-to-End Language Models
October 30, 2025
저자: Zhichao Wang, Dongyang Ma, Xinting Huang, Deng Cai, Tian Lan, Jiahao Xu, Haitao Mi, Xiaoying Tang, Yan Wang
cs.AI
초록
LLM에 붙은 '엔드투엔드'라는 꼬리표는 잘못된 명칭입니다. 실제로는 비분화 가능한 디코딩 과정에 의존하며, temperature나 top-p 같은 하이퍼파라미터를 수작업으로 힘들게 튜닝해야 합니다. 본 논문에서는 자체 디코딩 전략을 학습하여 제어함으로써 진정한 '엔드투엔드' 생성이 가능한 새로운 아키텍처인 AutoDeco를 소개합니다. 표준 트랜스포머에 경량 헤드를 추가하여 각 단계마다 다음 토큰 로짓과 함께 상황에 맞는 temperature 및 top-p 값을 동적으로 예측합니다. 이 접근법은 디코딩을 매개변수화된 토큰 수준 과정으로 전환하여 단일 순전파 내에서 모델이 자체 샘플링 전략을 조절할 수 있게 합니다.
8개 벤치마크에 대한 폭넓은 실험을 통해 AutoDeco가 기본 디코딩 전략을 크게 능가할 뿐만 아니라 '테스트 세트 해킹'에서 도출된 오라클 튜닝 기준선—어떤 정적 방법에 대한 실용적 상한선—에 버금가는 성능을 달성함을 입증했습니다.更重要的是, 우리는 지시 기반 디코딩 제어라는 새로운 능력을 발견했습니다: 모델이 자연어 명령(예: "낮은 무작위성으로 생성")을 해석하고 토큰 단위로 예측된 temperature와 top-p를 조정하는 법을 학습하며, 이는 조종 가능하고 상호작용적인 LLM 디코딩을 위한 새로운 패러다임을 엽니다.
English
The "end-to-end" label for LLMs is a misnomer. In practice, they depend on a
non-differentiable decoding process that requires laborious, hand-tuning of
hyperparameters like temperature and top-p. This paper introduces AutoDeco, a
novel architecture that enables truly "end-to-end" generation by learning to
control its own decoding strategy. We augment the standard transformer with
lightweight heads that, at each step, dynamically predict context-specific
temperature and top-p values alongside the next-token logits. This approach
transforms decoding into a parametric, token-level process, allowing the model
to self-regulate its sampling strategy within a single forward pass.
Through extensive experiments on eight benchmarks, we demonstrate that
AutoDeco not only significantly outperforms default decoding strategies but
also achieves performance comparable to an oracle-tuned baseline derived from
"hacking the test set"-a practical upper bound for any static method.
Crucially, we uncover an emergent capability for instruction-based decoding
control: the model learns to interpret natural language commands (e.g.,
"generate with low randomness") and adjusts its predicted temperature and top-p
on a token-by-token basis, opening a new paradigm for steerable and interactive
LLM decoding.