Predicción Eficiente de Múltiples Tokens sin Entrenamiento mediante Sondeo del Espacio de Incrustación

Resumen

Los modelos de lenguaje grandes (LLM) exhiben capacidades latentes de predicción de múltiples tokens (MTP) a pesar de ser entrenados únicamente para la generación del siguiente token. Proponemos un enfoque MTP simple y libre de entrenamiento que sondea un LLM utilizando tokens de enmascaramiento generados sobre la marcha extraídos de su espacio de incrustación, permitiendo la predicción paralela de tokens futuros sin modificar los pesos del modelo ni depender de modelos auxiliares de borrador. Nuestro método construye un árbol especulativo de tokens muestreando los K mejores candidatos de los logits de los tokens de enmascaramiento y aplica una estrategia ligera de poda para retener las continuaciones de alta probabilidad. Durante la decodificación, las predicciones candidatas se verifican en paralelo, lo que resulta en una generación sin pérdidas mientras se reduce sustancialmente el número de llamadas al modelo y se mejora el rendimiento de tokens. En diversos benchmarks, nuestro MTP basado en sondeo supera consistentemente a los baselines existentes libres de entrenamiento, aumentando la longitud de aceptación aproximadamente un 12% en LLaMA3 y entre un 8-12% en Qwen3, y logrando ganancias de rendimiento de hasta un 15-19%. Finalmente, aportamos perspectivas teóricas y evidencia empírica que muestran que las capas decodificadoras alinean naturalmente las representaciones de los tokens de enmascaramiento con los estados del siguiente token, permitiendo una predicción multi-paso precisa sin reentrenamiento ni modelos auxiliares.

English

Large language models (LLMs) exhibit latent multi-token prediction (MTP) capabilities despite being trained solely for next-token generation. We propose a simple, training-free MTP approach that probes an LLM using on-the-fly mask tokens drawn from its embedding space, enabling parallel prediction of future tokens without modifying model weights or relying on auxiliary draft models. Our method constructs a speculative token tree by sampling top-K candidates from mask-token logits and applies a lightweight pruning strategy to retain high-probability continuations. During decoding, candidate predictions are verified in parallel, resulting in lossless generation while substantially reducing the number of model calls and improving token throughput. Across benchmarks, our probing-based MTP consistently outperforms existing training-free baselines, increasing acceptance length by approximately 12\% on LLaMA3 and 8--12\% on Qwen3, and achieving throughput gains of up to 15--19\%. Finally, we provide theoretical insights and empirical evidence showing that decoder layers naturally align mask-token representations with next-token states, enabling accurate multi-step prediction without retraining or auxiliary models.

Predicción Eficiente de Múltiples Tokens sin Entrenamiento mediante Sondeo del Espacio de Incrustación

Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing

Resumen

Support