Эффективное обучение без тренировки с многотокенным предсказанием на основе зондирования эмбеддинг-пространства
Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing
March 18, 2026
Авторы: Raghavv Goel, Mukul Gagrani, Mingu Lee, Chris Lott
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют скрытые способности к прогнозированию нескольких токенов (MTP), несмотря на то, что обучаются исключительно для генерации следующего токена. Мы предлагаем простой, не требующий обучения метод MTP, который зондирует LLM с помощью динамически создаваемых масок-токенов, извлеченных из ее пространства эмбеддингов. Это позволяет параллельно предсказывать будущие токены без изменения весов модели или использования вспомогательных draft-моделей. Наш метод строит спекулятивное дерево токенов путем сэмплирования топ-K кандидатов из логитов масок-токенов и применяет облегченную стратегию отсечения для сохранения продолжений с высокой вероятностью. Во время декодирования кандидатные предсказания проверяются параллельно, что приводит к генерации без потерь при существенном сокращении количества вызовов модели и повышении пропускной способности по токенам. На различных бенчмарках наш метод MTP на основе зондирования стабильно превосходит существующие базовые методы, не требующие обучения, увеличивая длину принятия примерно на 12% для LLaMA3 и на 8–12% для Qwen3, а также достигая прироста пропускной способности до 15–19%. Наконец, мы предоставляем теоретические инсайты и эмпирические доказательства того, что декодерные слои естественным образом выравнивают репрезентации масок-токенов с состояниями следующих токенов, обеспечивая точное многошаговое прогнозирование без переобучения или вспомогательных моделей.
English
Large language models (LLMs) exhibit latent multi-token prediction (MTP) capabilities despite being trained solely for next-token generation. We propose a simple, training-free MTP approach that probes an LLM using on-the-fly mask tokens drawn from its embedding space, enabling parallel prediction of future tokens without modifying model weights or relying on auxiliary draft models. Our method constructs a speculative token tree by sampling top-K candidates from mask-token logits and applies a lightweight pruning strategy to retain high-probability continuations. During decoding, candidate predictions are verified in parallel, resulting in lossless generation while substantially reducing the number of model calls and improving token throughput. Across benchmarks, our probing-based MTP consistently outperforms existing training-free baselines, increasing acceptance length by approximately 12\% on LLaMA3 and 8--12\% on Qwen3, and achieving throughput gains of up to 15--19\%. Finally, we provide theoretical insights and empirical evidence showing that decoder layers naturally align mask-token representations with next-token states, enabling accurate multi-step prediction without retraining or auxiliary models.