Addestramento Efficiente Senza Allenamento per la Predizione Multi-Token tramite Analisi dello Spazio di Embedding

Abstract

I modelli linguistici di grandi dimensioni (LLM) mostrano capacità latenti di previsione multi-token (MTP, Multi-Token Prediction) nonostante siano addestrati esclusivamente per la generazione del token successivo. Proponiamo un approccio MTP semplice e senza necessità di addestramento che analizza un LLM utilizzando token mascherati generati al volo estratti dal suo spazio di embedding, consentendo la previsione parallela di token futuri senza modificare i pesi del modello o fare affidamento su modelli draft ausiliari. Il nostro metodo costruisce un albero di token speculativo campionando i candidati top-K dai logit dei token mascherati e applica una strategia di potatura leggera per mantenere le continuazioni ad alta probabilità. Durante la decodifica, le previsioni candidate vengono verificate in parallelo, ottenendo una generazione senza perdite riducendo sostanzialmente il numero di chiamate al modello e migliorando il throughput di token. Su diversi benchmark, il nostro MTP basato su probing supera costantemente i baseline esistenti senza addestramento, aumentando la lunghezza di accettazione di circa il 12% su LLaMA3 e dell'8-12% su Qwen3, e raggiungendo guadagni di throughput fino al 15-19%. Infine, forniamo intuizioni teoriche ed evidenze empiriche che mostrano come gli strati decoder allineino naturalmente le rappresentazioni dei token mascherati con gli stati del token successivo, abilitando una previsione multi-passo accurata senza riaddestramento o modelli ausiliari.

English

Large language models (LLMs) exhibit latent multi-token prediction (MTP) capabilities despite being trained solely for next-token generation. We propose a simple, training-free MTP approach that probes an LLM using on-the-fly mask tokens drawn from its embedding space, enabling parallel prediction of future tokens without modifying model weights or relying on auxiliary draft models. Our method constructs a speculative token tree by sampling top-K candidates from mask-token logits and applies a lightweight pruning strategy to retain high-probability continuations. During decoding, candidate predictions are verified in parallel, resulting in lossless generation while substantially reducing the number of model calls and improving token throughput. Across benchmarks, our probing-based MTP consistently outperforms existing training-free baselines, increasing acceptance length by approximately 12\% on LLaMA3 and 8--12\% on Qwen3, and achieving throughput gains of up to 15--19\%. Finally, we provide theoretical insights and empirical evidence showing that decoder layers naturally align mask-token representations with next-token states, enabling accurate multi-step prediction without retraining or auxiliary models.

Addestramento Efficiente Senza Allenamento per la Predizione Multi-Token tramite Analisi dello Spazio di Embedding

Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing

Abstract

Support