MARS: Обеспечение генерации нескольких токенов авторегрессионными моделями

Аннотация

Авторегрессионные (AR) языковые модели генерируют текст по одному токену за раз, даже когда последующие токены легко предсказуемы на основе предыдущего контекста. Мы представляем MARS (Mask AutoRegreSsion) — метод легкой дообучения, который учит инструктивно-дообученную AR-модель предсказывать несколько токенов за один прямой проход. MARS не требует модификации архитектуры, не добавляет дополнительных параметров и создает единую модель, которую можно использовать так же, как исходную AR-модель, без потери производительности. В отличие от спекулятивного декодирования, где используется отдельная черновая модель, или многоголовых подходов вроде Medusa с дополнительными прогностическими головками, MARS требует лишь продолжения обучения на существующих инструктивных данных. При генерации одного токена за прямой проход MARS показывает результаты на уровне или выше AR-базовой линии на шести стандартных бенчмарках. При возможности принимать несколько токенов за шаг метод сохраняет точность на уровне базовой линии, обеспечивая при этом повышение пропускной способности в 1.5-1.7 раза. Мы также разработали стратегию KV-кэширования на уровне блоков для пакетного вывода, достигнув ускорения в реальном времени до 1.71 раза по сравнению с AR с KV-кэшем на Qwen2.5-7B. Наконец, MARS поддерживает динамическую регулировку скорости через пороги уверенности: при высокой нагрузке система обслуживания может увеличивать пропускную способность на лету без смены моделей или перезапуска, предоставляя практический инструмент балансировки задержки и качества для развертывания.

English

Autoregressive (AR) language models generate text one token at a time, even when consecutive tokens are highly predictable given earlier context. We introduce MARS (Mask AutoRegreSsion), a lightweight fine-tuning method that teaches an instruction-tuned AR model to predict multiple tokens per forward pass. MARS adds no architectural modifications, no extra parameters, and produces a single model that can still be called exactly like the original AR model with no performance degradation. Unlike speculative decoding, which maintains a separate draft model alongside the target, or multi-head approaches such as Medusa, which attach additional prediction heads, MARS requires only continued training on existing instruction data. When generating one token per forward pass, MARS matches or exceeds the AR baseline on six standard benchmarks. When allowed to accept multiple tokens per step, it maintains baseline-level accuracy while achieving 1.5-1.7x throughput. We further develop a block-level KV caching strategy for batch inference, achieving up to 1.71x wall-clock speedup over AR with KV cache on Qwen2.5-7B. Finally, MARS supports real-time speed adjustment via confidence thresholding: under high request load, the serving system can increase throughput on the fly without swapping models or restarting, providing a practical latency-quality knob for deployment.

MARS: Обеспечение генерации нескольких токенов авторегрессионными моделями

MARS: Enabling Autoregressive Models Multi-Token Generation

Аннотация

Support