O Fim da Decodificação Manual: Rumo a Modelos de Linguagem Verdadeiramente End-to-End
The End of Manual Decoding: Towards Truly End-to-End Language Models
October 30, 2025
Autores: Zhichao Wang, Dongyang Ma, Xinting Huang, Deng Cai, Tian Lan, Jiahao Xu, Haitao Mi, Xiaoying Tang, Yan Wang
cs.AI
Resumo
O rótulo "end-to-end" para LLMs é um equívoco. Na prática, estes modelos dependem de um processo de decodificação não diferenciável que exige um ajuste laborioso e manual de hiperparâmetros como temperatura e top-p. Este artigo introduz o AutoDeco, uma nova arquitetura que permite uma geração verdadeiramente "end-to-end" ao aprender a controlar sua própria estratégia de decodificação. Aumentamos o transformer padrão com cabeças leves que, a cada passo, preveem dinamicamente valores de temperatura e top-p específicos ao contexto, juntamente com os logits do próximo token. Esta abordagem transforma a decodificação num processo paramétrico ao nível do token, permitindo que o modelo autorregule sua estratégia de amostragem numa única passagem direta.
Através de extensos experimentos em oito benchmarks, demonstramos que o AutoDeco não apenas supera significativamente as estratégias de decodificação padrão, mas também atinge um desempenho comparável a uma linha de base ajustada por oráculo, derivada de "hackear o conjunto de teste" - um limite superior prático para qualquer método estático. Crucialmente, descobrimos uma capacidade emergente para controle de decodificação baseado em instruções: o modelo aprende a interpretar comandos em linguagem natural (por exemplo, "gerar com baixa aleatoriedade") e ajusta sua temperatura e top-p previstos token a token, abrindo um novo paradigma para a decodificação de LLMs orientável e interativa.
English
The "end-to-end" label for LLMs is a misnomer. In practice, they depend on a
non-differentiable decoding process that requires laborious, hand-tuning of
hyperparameters like temperature and top-p. This paper introduces AutoDeco, a
novel architecture that enables truly "end-to-end" generation by learning to
control its own decoding strategy. We augment the standard transformer with
lightweight heads that, at each step, dynamically predict context-specific
temperature and top-p values alongside the next-token logits. This approach
transforms decoding into a parametric, token-level process, allowing the model
to self-regulate its sampling strategy within a single forward pass.
Through extensive experiments on eight benchmarks, we demonstrate that
AutoDeco not only significantly outperforms default decoding strategies but
also achieves performance comparable to an oracle-tuned baseline derived from
"hacking the test set"-a practical upper bound for any static method.
Crucially, we uncover an emergent capability for instruction-based decoding
control: the model learns to interpret natural language commands (e.g.,
"generate with low randomness") and adjusts its predicted temperature and top-p
on a token-by-token basis, opening a new paradigm for steerable and interactive
LLM decoding.