Directe Multi-Token Decodering
Direct Multi-Token Decoding
October 13, 2025
Auteurs: Xuan Luo, Weizhi Wang, Xifeng Yan
cs.AI
Samenvatting
Decoder-only transformers zijn de standaardarchitectuur geworden voor grote
taalmodellen (LLMs) vanwege hun sterke prestaties. Recente studies suggereren
dat in vooraf getrainde LLMs vroege, middelste en late lagen verschillende
rollen kunnen vervullen: Vroege lagen richten zich op het begrijpen van de
invoercontext, middelste lagen verwerken taakspecifieke informatie, en late
lagen zetten abstracte representaties om in uitvoertokens. Wij veronderstellen
dat zodra representaties zijn verwerkt door de vroege en middelste lagen, de
resulterende verborgen toestanden voldoende informatie kunnen bevatten om de
generatie van meerdere tokens te ondersteunen met alleen de late lagen, waardoor
het herhaaldelijk doorlopen van de vroege en middelste lagen overbodig wordt.
Wij noemen dit inferentieparadigma Direct Multi-Token Decoding (DMTD). In
tegenstelling tot speculatieve decodering introduceert onze methode geen
extra parameters, hulproutines of post-generatieverificatie. Ondanks training
op een beperkte dataset heeft een fijn afgestemd DMTD Qwen3-4B model al
veelbelovende resultaten laten zien, met een snelheidsverbetering tot 2x en
slechts een gering prestatieverlies. Bovendien, zoals blijkt uit onze
schaalbaarheidsanalyse, wordt verwacht dat de prestaties verder zullen
verbeteren met grotere trainingsdatasets.
English
Decoder-only transformers have become the standard architecture for large
language models (LLMs) due to their strong performance. Recent studies suggest
that, in pre-trained LLMs, early, middle, and late layers may serve distinct
roles: Early layers focus on understanding the input context, middle layers
handle task-specific processing, and late layers convert abstract
representations into output tokens. We hypothesize that once representations
have been processed by the early and middle layers, the resulting hidden states
may encapsulate sufficient information to support the generation of multiple
tokens using only the late layers, eliminating the need to repeatedly traverse
the early and middle layers. We refer to this inference paradigm as Direct
Multi-Token Decoding (DMTD). Unlike speculative decoding, our method introduces
no additional parameters, auxiliary routines, or post-generation verification.
Despite being trained on a limited dataset, a fine-tuned DMTD Qwen3-4B model
has already demonstrated promising results, achieving up to a 2x speedup with
only minor performance loss. Moreover, as shown in our scaling analysis, its
performance is expected to further improve with larger training datasets.