Direkte Multi-Token-Decodierung
Direct Multi-Token Decoding
October 13, 2025
papers.authors: Xuan Luo, Weizhi Wang, Xifeng Yan
cs.AI
papers.abstract
Decoder-only-Transformer haben sich aufgrund ihrer starken Leistung als Standardarchitektur für große Sprachmodelle (LLMs) etabliert. Aktuelle Studien deuten darauf hin, dass in vortrainierten LLMs frühe, mittlere und späte Schichten unterschiedliche Rollen übernehmen könnten: Frühe Schichten konzentrieren sich auf das Verständnis des Eingabekontexts, mittlere Schichten bearbeiten aufgaben spezifische Verarbeitungen, und späte Schichten wandeln abstrakte Repräsentationen in Ausgabetoken um. Wir stellen die Hypothese auf, dass, sobald die Repräsentationen von den frühen und mittleren Schichten verarbeitet wurden, die resultierenden verborgenen Zustände ausreichend Informationen enthalten könnten, um die Generierung mehrerer Token allein mithilfe der späten Schichten zu unterstützen, wodurch das wiederholte Durchlaufen der frühen und mittleren Schichten entfällt. Wir bezeichnen dieses Inferenzparadigma als Direct Multi-Token Decoding (DMTD). Im Gegensatz zum spekulativen Decoding führt unsere Methode keine zusätzlichen Parameter, Hilfsroutinen oder Post-Generierungsüberprüfungen ein. Trotz des Trainings auf einem begrenzten Datensatz hat ein feinabgestimmtes DMTD Qwen3-4B-Modell bereits vielversprechende Ergebnisse gezeigt und eine Beschleunigung von bis zu 2x bei nur geringem Leistungsverlust erreicht. Darüber hinaus wird, wie unsere Skalierungsanalyse zeigt, erwartet, dass seine Leistung mit größeren Trainingsdatensätzen weiter verbessert wird.
English
Decoder-only transformers have become the standard architecture for large
language models (LLMs) due to their strong performance. Recent studies suggest
that, in pre-trained LLMs, early, middle, and late layers may serve distinct
roles: Early layers focus on understanding the input context, middle layers
handle task-specific processing, and late layers convert abstract
representations into output tokens. We hypothesize that once representations
have been processed by the early and middle layers, the resulting hidden states
may encapsulate sufficient information to support the generation of multiple
tokens using only the late layers, eliminating the need to repeatedly traverse
the early and middle layers. We refer to this inference paradigm as Direct
Multi-Token Decoding (DMTD). Unlike speculative decoding, our method introduces
no additional parameters, auxiliary routines, or post-generation verification.
Despite being trained on a limited dataset, a fine-tuned DMTD Qwen3-4B model
has already demonstrated promising results, achieving up to a 2x speedup with
only minor performance loss. Moreover, as shown in our scaling analysis, its
performance is expected to further improve with larger training datasets.