Efficiënte trainingsvrije multi-tokenvoorspelling via embeddingruimte-verkenning

Samenvatting

Grote taalmodellen (LLM's) vertonen latente capaciteiten voor het voorspellen van meerdere tokens (MTP), ondanks dat ze uitsluitend zijn getraind voor het genereren van het volgende token. Wij stellen een eenvoudige, trainingsvrije MTP-aanpak voor die een LLM onderzoekt met behulp van dynamisch gegenereerde maskertokens afkomstig uit zijn embeddingruimte. Dit maakt parallelle voorspelling van toekomstige tokens mogelijk zonder aanpassing van de modelgewichten of afhankelijkheid van hulp-draftmodellen. Onze methode construeert een speculatieve tokenboom door top-K-kandidaten te bemonsteren uit de logits van maskertokens en past een lichtgewicht pruningstrategie toe om waarschijnlijke vervolgen te behouden. Tijdens het decoderen worden kandidaatvoorspellingen parallel geverifieerd, wat resulteert in verliesvrije generatie terwijl het aantal modelaanroepen aanzienlijk wordt verminderd en de tokendoorvoer verbetert. Op benchmarks overtreft onze op probing gebaseerde MTP-methode consistente trainingsvrije basismethoden, waarbij de acceptatielengte met ongeveer 12% toeneemt op LLaMA3 en met 8-12% op Qwen3, en doorvoerwinsten tot 15-19% worden behaald. Ten slotte bieden we theoretische inzichten en empirisch bewijs dat aantoont dat decoder-lagen mask-tokenrepresentaties van nature uitlijnen met volgende-token-toestanden, waardoor nauwkeurige meerstapsvoorspelling mogelijk is zonder hertraining of hulpmodellen.

English

Large language models (LLMs) exhibit latent multi-token prediction (MTP) capabilities despite being trained solely for next-token generation. We propose a simple, training-free MTP approach that probes an LLM using on-the-fly mask tokens drawn from its embedding space, enabling parallel prediction of future tokens without modifying model weights or relying on auxiliary draft models. Our method constructs a speculative token tree by sampling top-K candidates from mask-token logits and applies a lightweight pruning strategy to retain high-probability continuations. During decoding, candidate predictions are verified in parallel, resulting in lossless generation while substantially reducing the number of model calls and improving token throughput. Across benchmarks, our probing-based MTP consistently outperforms existing training-free baselines, increasing acceptance length by approximately 12\% on LLaMA3 and 8--12\% on Qwen3, and achieving throughput gains of up to 15--19\%. Finally, we provide theoretical insights and empirical evidence showing that decoder layers naturally align mask-token representations with next-token states, enabling accurate multi-step prediction without retraining or auxiliary models.

Efficiënte trainingsvrije multi-tokenvoorspelling via embeddingruimte-verkenning

Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing

Samenvatting

Support