Das Ende der manuellen Dekodierung: Auf dem Weg zu wirklich end-to-end Sprachmodellen
The End of Manual Decoding: Towards Truly End-to-End Language Models
October 30, 2025
papers.authors: Zhichao Wang, Dongyang Ma, Xinting Huang, Deng Cai, Tian Lan, Jiahao Xu, Haitao Mi, Xiaoying Tang, Yan Wang
cs.AI
papers.abstract
Die Bezeichnung "End-to-End" für LLMs ist irreführend. In der Praxis sind sie auf einen nicht-differenzierbaren Decodierungsprozess angewiesen, der eine mühsame manuelle Optimierung von Hyperparametern wie Temperatur und Top-p erfordert. Dieses Paper stellt AutoDeco vor, eine neuartige Architektur, die durch das Erlernen der Steuerung ihrer eigenen Decodierungsstrategie wirklich "End-to-End"-Generierung ermöglicht. Wir erweitern den Standard-Transformer um schlanke "Heads", die in jedem Schritt kontextspezifische Temperatur- und Top-p-Werte dynamisch neben den nächsten Token-Logits vorhersagen. Dieser Ansatz verwandelt die Decodierung in einen parametrischen, Token-basierten Prozess, der es dem Modell ermöglicht, seine Sampling-Strategie innerhalb eines einzigen Forward-Passes selbst zu regulieren.
In umfangreichen Experimenten mit acht Benchmarks zeigen wir, dass AutoDeco nicht nur Standard-Decodierungsstrategien signifikant übertrifft, sondern auch eine Leistung erreicht, die mit einem Oracle-optimierten Baseline-System vergleichbar ist – einer praktischen Obergrenze für jede statische Methode, die durch "Test-Set-Hacking" abgeleitet wurde. Entscheidend ist, dass wir eine emergente Fähigkeit zur befehlsbasierten Decodierungssteuerung aufdecken: Das Modell lernt, natürlichsprachliche Anweisungen (z.B. "Generiere mit geringer Zufälligkeit") zu interpretieren und passt seine vorhergesagten Temperatur- und Top-p-Werte Token-für-Token an. Dies eröffnet ein neues Paradigma für steuerbare und interaktive LLM-Decodierung.
English
The "end-to-end" label for LLMs is a misnomer. In practice, they depend on a
non-differentiable decoding process that requires laborious, hand-tuning of
hyperparameters like temperature and top-p. This paper introduces AutoDeco, a
novel architecture that enables truly "end-to-end" generation by learning to
control its own decoding strategy. We augment the standard transformer with
lightweight heads that, at each step, dynamically predict context-specific
temperature and top-p values alongside the next-token logits. This approach
transforms decoding into a parametric, token-level process, allowing the model
to self-regulate its sampling strategy within a single forward pass.
Through extensive experiments on eight benchmarks, we demonstrate that
AutoDeco not only significantly outperforms default decoding strategies but
also achieves performance comparable to an oracle-tuned baseline derived from
"hacking the test set"-a practical upper bound for any static method.
Crucially, we uncover an emergent capability for instruction-based decoding
control: the model learns to interpret natural language commands (e.g.,
"generate with low randomness") and adjusts its predicted temperature and top-p
on a token-by-token basis, opening a new paradigm for steerable and interactive
LLM decoding.