ChatPaper.aiChatPaper

Het einde van handmatig decoderen: op weg naar echt end-to-end taalmodel

The End of Manual Decoding: Towards Truly End-to-End Language Models

October 30, 2025
Auteurs: Zhichao Wang, Dongyang Ma, Xinting Huang, Deng Cai, Tian Lan, Jiahao Xu, Haitao Mi, Xiaoying Tang, Yan Wang
cs.AI

Samenvatting

Het label "end-to-end" voor LLM's is een misbenaming. In de praktijk zijn ze afhankelijk van een niet-differentieerbaar decodeerproces dat arbeidsintensieve, handmatige afstemming van hyperparameters zoals temperatuur en top-p vereist. Dit artikel introduceert AutoDeco, een nieuwe architectuur die werkelijk "end-to-end"-generatie mogelijk maakt door het eigen decodeerstrategie te leren beheersen. We breiden de standaard transformer uit met lichtgewicht heads die bij elke stap dynamisch context-specifieke temperatuur- en top-p-waarden voorspellen, naast de logits voor het volgende token. Deze aanpak transformeert decoderen in een parametrisch, token-level proces, waardoor het model zijn eigen samplingstrategie kan reguleren binnen een enkele forward pass. Via uitgebreide experimenten op acht benchmarks tonen we aan dat AutoDeco niet alleen standaard decodeerstrategieën significant overtreft, maar ook prestaties bereikt die vergelijkbaar zijn met een oracle-afgestemde baseline verkregen door "de testset te hacken" – een praktische bovengrens voor elke statische methode. Cruciaal is dat we een emergent vermogen ontdekken voor op instructies gebaseerde decodeercontrole: het model leert natuurlijke-taalinstructies (bijv. "genereer met weinig willekeur") te interpreteren en past zijn voorspelde temperatuur en top-p token-voor-token aan, wat een nieuw paradigma opent voor stuurbaar en interactief LLM-decoderen.
English
The "end-to-end" label for LLMs is a misnomer. In practice, they depend on a non-differentiable decoding process that requires laborious, hand-tuning of hyperparameters like temperature and top-p. This paper introduces AutoDeco, a novel architecture that enables truly "end-to-end" generation by learning to control its own decoding strategy. We augment the standard transformer with lightweight heads that, at each step, dynamically predict context-specific temperature and top-p values alongside the next-token logits. This approach transforms decoding into a parametric, token-level process, allowing the model to self-regulate its sampling strategy within a single forward pass. Through extensive experiments on eight benchmarks, we demonstrate that AutoDeco not only significantly outperforms default decoding strategies but also achieves performance comparable to an oracle-tuned baseline derived from "hacking the test set"-a practical upper bound for any static method. Crucially, we uncover an emergent capability for instruction-based decoding control: the model learns to interpret natural language commands (e.g., "generate with low randomness") and adjusts its predicted temperature and top-p on a token-by-token basis, opening a new paradigm for steerable and interactive LLM decoding.
PDF1145December 2, 2025