La fin du décodage manuel : vers des modèles de langage véritablement de bout en bout

papers.abstract

L'étiquette « end-to-end » attribuée aux LLM est un abus de langage. En pratique, ceux-ci dépendent d'un processus de décodage non différentiable qui nécessite un réglage manuel fastidieux d'hyperparamètres comme la température et le top-p. Cet article présente AutoDeco, une nouvelle architecture qui permet une génération véritablement « end-to-end » en apprenant à contrôler sa propre stratégie de décodage. Nous enrichissons le transformeur standard avec des têtes légères qui, à chaque étape, prédisent dynamiquement des valeurs de température et de top-p spécifiques au contexte, parallèlement aux logits du token suivant. Cette approche transforme le décodage en un processus paramétrique au niveau du token, permettant au modèle d'autoréguler sa stratégie d'échantillonnage en une seule passe avant. À travers des expériences approfondies sur huit benchmarks, nous démontrons qu'AutoDeco surpasse non seulement significativement les stratégies de décodage par défaut, mais atteint également des performances comparables à une baseline optimisée de manière oracle, dérivée d'un « piratage de l'ensemble de test » – une limite supérieure pratique pour toute méthode statique. Fait crucial, nous mettons en évidence une capacité émergente de contrôle du décodage par instruction : le modèle apprend à interpréter des commandes en langage naturel (par exemple, « génère avec une faible randomisation ») et ajuste sa température et son top-p prédits token par token, ouvrant ainsi une nouvelle paradigme pour un décodage des LLM pilotable et interactif.

English

The "end-to-end" label for LLMs is a misnomer. In practice, they depend on a non-differentiable decoding process that requires laborious, hand-tuning of hyperparameters like temperature and top-p. This paper introduces AutoDeco, a novel architecture that enables truly "end-to-end" generation by learning to control its own decoding strategy. We augment the standard transformer with lightweight heads that, at each step, dynamically predict context-specific temperature and top-p values alongside the next-token logits. This approach transforms decoding into a parametric, token-level process, allowing the model to self-regulate its sampling strategy within a single forward pass. Through extensive experiments on eight benchmarks, we demonstrate that AutoDeco not only significantly outperforms default decoding strategies but also achieves performance comparable to an oracle-tuned baseline derived from "hacking the test set"-a practical upper bound for any static method. Crucially, we uncover an emergent capability for instruction-based decoding control: the model learns to interpret natural language commands (e.g., "generate with low randomness") and adjusts its predicted temperature and top-p on a token-by-token basis, opening a new paradigm for steerable and interactive LLM decoding.

La fin du décodage manuel : vers des modèles de langage véritablement de bout en bout

The End of Manual Decoding: Towards Truly End-to-End Language Models

papers.abstract

Support