Direkte Multi-Token-Decodierung

papers.abstract

Decoder-only-Transformer haben sich aufgrund ihrer starken Leistung als Standardarchitektur für große Sprachmodelle (LLMs) etabliert. Aktuelle Studien deuten darauf hin, dass in vortrainierten LLMs frühe, mittlere und späte Schichten unterschiedliche Rollen übernehmen könnten: Frühe Schichten konzentrieren sich auf das Verständnis des Eingabekontexts, mittlere Schichten bearbeiten aufgaben spezifische Verarbeitungen, und späte Schichten wandeln abstrakte Repräsentationen in Ausgabetoken um. Wir stellen die Hypothese auf, dass, sobald die Repräsentationen von den frühen und mittleren Schichten verarbeitet wurden, die resultierenden verborgenen Zustände ausreichend Informationen enthalten könnten, um die Generierung mehrerer Token allein mithilfe der späten Schichten zu unterstützen, wodurch das wiederholte Durchlaufen der frühen und mittleren Schichten entfällt. Wir bezeichnen dieses Inferenzparadigma als Direct Multi-Token Decoding (DMTD). Im Gegensatz zum spekulativen Decoding führt unsere Methode keine zusätzlichen Parameter, Hilfsroutinen oder Post-Generierungsüberprüfungen ein. Trotz des Trainings auf einem begrenzten Datensatz hat ein feinabgestimmtes DMTD Qwen3-4B-Modell bereits vielversprechende Ergebnisse gezeigt und eine Beschleunigung von bis zu 2x bei nur geringem Leistungsverlust erreicht. Darüber hinaus wird, wie unsere Skalierungsanalyse zeigt, erwartet, dass seine Leistung mit größeren Trainingsdatensätzen weiter verbessert wird.

English

Decoder-only transformers have become the standard architecture for large language models (LLMs) due to their strong performance. Recent studies suggest that, in pre-trained LLMs, early, middle, and late layers may serve distinct roles: Early layers focus on understanding the input context, middle layers handle task-specific processing, and late layers convert abstract representations into output tokens. We hypothesize that once representations have been processed by the early and middle layers, the resulting hidden states may encapsulate sufficient information to support the generation of multiple tokens using only the late layers, eliminating the need to repeatedly traverse the early and middle layers. We refer to this inference paradigm as Direct Multi-Token Decoding (DMTD). Unlike speculative decoding, our method introduces no additional parameters, auxiliary routines, or post-generation verification. Despite being trained on a limited dataset, a fine-tuned DMTD Qwen3-4B model has already demonstrated promising results, achieving up to a 2x speedup with only minor performance loss. Moreover, as shown in our scaling analysis, its performance is expected to further improve with larger training datasets.