ChatPaper.aiChatPaper

La fine della decodifica manuale: verso modelli linguistici veramente end-to-end

The End of Manual Decoding: Towards Truly End-to-End Language Models

October 30, 2025
Autori: Zhichao Wang, Dongyang Ma, Xinting Huang, Deng Cai, Tian Lan, Jiahao Xu, Haitao Mi, Xiaoying Tang, Yan Wang
cs.AI

Abstract

L'etichetta "end-to-end" per gli LLM è un termine improprio. Nella pratica, questi modelli dipendono da un processo di decodifica non differenziabile che richiede una laboriosa regolazione manuale di iperparametri come temperatura e top-p. Questo articolo introduce AutoDeco, una nuova architettura che abilita una generazione veramente "end-to-end" apprendendo a controllare la propria strategia di decodifica. Potenziamo il transformer standard con teste leggere che, a ogni passo, predicono dinamicamente valori di temperatura e top-p specifici per il contesto, insieme ai logit del token successivo. Questo approccio trasforma la decodifica in un processo parametrico a livello di token, consentendo al modello di auto-regolare la propria strategia di campionamento all'interno di un unico passaggio in avanti. Attraverso esperimenti approfonditi su otto benchmark, dimostriamo che AutoDeco non solo supera significativamente le strategie di decodifica predefinite, ma raggiunge anche prestazioni paragonabili a una baseline ottimizzata in modo oracolare, derivata da un "hacking del test set" – un limite superiore pratico per qualsiasi metodo statico. Crucialmente, scopriamo un'abilità emergente per il controllo della decodifica basata su istruzioni: il modello impara a interpretare comandi in linguaggio naturale (ad esempio, "genera con bassa casualità") e regola la temperatura e il top-p previsti su base token-per-token, aprendo un nuovo paradigma per la decodifica degli LLM orientabile e interattiva.
English
The "end-to-end" label for LLMs is a misnomer. In practice, they depend on a non-differentiable decoding process that requires laborious, hand-tuning of hyperparameters like temperature and top-p. This paper introduces AutoDeco, a novel architecture that enables truly "end-to-end" generation by learning to control its own decoding strategy. We augment the standard transformer with lightweight heads that, at each step, dynamically predict context-specific temperature and top-p values alongside the next-token logits. This approach transforms decoding into a parametric, token-level process, allowing the model to self-regulate its sampling strategy within a single forward pass. Through extensive experiments on eight benchmarks, we demonstrate that AutoDeco not only significantly outperforms default decoding strategies but also achieves performance comparable to an oracle-tuned baseline derived from "hacking the test set"-a practical upper bound for any static method. Crucially, we uncover an emergent capability for instruction-based decoding control: the model learns to interpret natural language commands (e.g., "generate with low randomness") and adjusts its predicted temperature and top-p on a token-by-token basis, opening a new paradigm for steerable and interactive LLM decoding.
PDF1145December 2, 2025