Effizientes trainingsfreies Multi-Token-Prädiktionsverfahren durch Embedding-Space-Probierung

Zusammenfassung

Große Sprachmodelle (LLMs) zeigen latente Fähigkeiten zur Vorhersage mehrerer Token (Multi-Token Prediction, MTP), obwohl sie ausschließlich für die Generierung des nächsten Tokens trainiert wurden. Wir schlagen einen einfachen, trainingsfreien MTP-Ansatz vor, der ein LLM mittels dynamisch eingefügter Mask-Token aus seinem Einbettungsraum abfragt. Dies ermöglicht die parallele Vorhersage zukünftiger Token, ohne die Modellgewichte zu verändern oder auf zusätzliche Draft-Modelle angewiesen zu sein. Unsere Methode konstruiert einen spekulativen Token-Baum, indem Top-K-Kandidaten aus den Logits der Mask-Token gesampelt werden, und wendet eine leichtgewichtige Beschneidungsstrategie an, um wahrscheinliche Fortsetzungen beizubehalten. Während der Decodierung werden die Kandidatenvorhersagen parallel verifiziert, was zu einem verlustfreien Generierungsprozess führt und gleichzeitig die Anzahl der Modellaufrufe deutlich reduziert sowie den Token-Durchsatz erhöht. In Benchmarks übertrifft unsere auf Abfrage basierende MTP-Methode durchgängig bestehende trainingsfreie Baselines, steigert die Akzeptanzlänge um circa 12 % bei LLaMA3 und 8–12 % bei Qwen3 und erzielt Durchsatzsteigerungen von bis zu 15–19 %. Abschließend liefern wir theoretische Einblicke und empirische Belege, die zeigen, dass Decoder-Schichten die Repräsentationen von Mask-Token natürlich mit den Zuständen für den nächsten Token in Einklang bringen, was eine präzise Mehrschritt-Vorhersage ohne Neutraining oder Hilfsmodelle ermöglicht.

English

Large language models (LLMs) exhibit latent multi-token prediction (MTP) capabilities despite being trained solely for next-token generation. We propose a simple, training-free MTP approach that probes an LLM using on-the-fly mask tokens drawn from its embedding space, enabling parallel prediction of future tokens without modifying model weights or relying on auxiliary draft models. Our method constructs a speculative token tree by sampling top-K candidates from mask-token logits and applies a lightweight pruning strategy to retain high-probability continuations. During decoding, candidate predictions are verified in parallel, resulting in lossless generation while substantially reducing the number of model calls and improving token throughput. Across benchmarks, our probing-based MTP consistently outperforms existing training-free baselines, increasing acceptance length by approximately 12\% on LLaMA3 and 8--12\% on Qwen3, and achieving throughput gains of up to 15--19\%. Finally, we provide theoretical insights and empirical evidence showing that decoder layers naturally align mask-token representations with next-token states, enabling accurate multi-step prediction without retraining or auxiliary models.

Effizientes trainingsfreies Multi-Token-Prädiktionsverfahren durch Embedding-Space-Probierung

Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing

Zusammenfassung

Support