ChatPaper.aiChatPaper

Directe Multi-Token Decodering

Direct Multi-Token Decoding

October 13, 2025
Auteurs: Xuan Luo, Weizhi Wang, Xifeng Yan
cs.AI

Samenvatting

Decoder-only transformers zijn de standaardarchitectuur geworden voor grote taalmodellen (LLMs) vanwege hun sterke prestaties. Recente studies suggereren dat in vooraf getrainde LLMs vroege, middelste en late lagen verschillende rollen kunnen vervullen: Vroege lagen richten zich op het begrijpen van de invoercontext, middelste lagen verwerken taakspecifieke informatie, en late lagen zetten abstracte representaties om in uitvoertokens. Wij veronderstellen dat zodra representaties zijn verwerkt door de vroege en middelste lagen, de resulterende verborgen toestanden voldoende informatie kunnen bevatten om de generatie van meerdere tokens te ondersteunen met alleen de late lagen, waardoor het herhaaldelijk doorlopen van de vroege en middelste lagen overbodig wordt. Wij noemen dit inferentieparadigma Direct Multi-Token Decoding (DMTD). In tegenstelling tot speculatieve decodering introduceert onze methode geen extra parameters, hulproutines of post-generatieverificatie. Ondanks training op een beperkte dataset heeft een fijn afgestemd DMTD Qwen3-4B model al veelbelovende resultaten laten zien, met een snelheidsverbetering tot 2x en slechts een gering prestatieverlies. Bovendien, zoals blijkt uit onze schaalbaarheidsanalyse, wordt verwacht dat de prestaties verder zullen verbeteren met grotere trainingsdatasets.
English
Decoder-only transformers have become the standard architecture for large language models (LLMs) due to their strong performance. Recent studies suggest that, in pre-trained LLMs, early, middle, and late layers may serve distinct roles: Early layers focus on understanding the input context, middle layers handle task-specific processing, and late layers convert abstract representations into output tokens. We hypothesize that once representations have been processed by the early and middle layers, the resulting hidden states may encapsulate sufficient information to support the generation of multiple tokens using only the late layers, eliminating the need to repeatedly traverse the early and middle layers. We refer to this inference paradigm as Direct Multi-Token Decoding (DMTD). Unlike speculative decoding, our method introduces no additional parameters, auxiliary routines, or post-generation verification. Despite being trained on a limited dataset, a fine-tuned DMTD Qwen3-4B model has already demonstrated promising results, achieving up to a 2x speedup with only minor performance loss. Moreover, as shown in our scaling analysis, its performance is expected to further improve with larger training datasets.
PDF53October 16, 2025