MARS: Ermöglichung der Multi-Token-Generierung in autoregressiven Modellen

Zusammenfassung

Autoregressive (AR-)Sprachmodelle generieren Text Token für Token, selbst wenn aufeinanderfolgende Token bei gegebenem früheren Kontext hochgradig vorhersagbar sind. Wir stellen MARS (Mask AutoRegreSsion) vor, eine leichtgewichtige Feinabstimmungsmethode, die einem instruktionsfeinabgestimmten AR-Modell beibringt, mehrere Token pro Vorwärtsdurchlauf vorherzusagen. MARS erfordert keine architektonischen Änderungen, keine zusätzlichen Parameter und erzeugt ein einzelnes Modell, das weiterhin genau wie das ursprüngliche AR-Modell aufgerufen werden kann, ohne Leistungseinbußen. Im Gegensatz zum spekulativen Decodieren, das ein separates Draft-Modell neben dem Zielmodell pflegt, oder zu Multi-Head-Ansätzen wie Medusa, die zusätzliche Vorhersage-Köpfe anfügen, benötigt MARS lediglich weiteres Training auf vorhandenen Instruktionsdaten. Bei der Generierung eines Tokens pro Vorwärtsdurchlauf erreicht oder übertrifft MARS die AR-Baseline in sechs Standard-Benchmarks. Wenn pro Schritt mehrere Token akzeptiert werden dürfen, behält es die Baseline-Genauigkeit bei und erreicht einen 1,5-1,7-fachen Durchsatz. Wir entwickeln weiterhin eine Block-Level-KV-Caching-Strategie für Batch-Inferenz, die bei Qwen2.5-7B mit KV-Cache eine Beschleunigung der Echtzeit um bis zum 1,71-fachen gegenüber AR erzielt. Schließlich unterstützt MARS die Echtzeit-Anpassung der Geschwindigkeit via Confidence-Thresholding: Unter hoher Anfragerlast kann das Serving-System den Durchsatz on-the-fly erhöhen, ohne Modelle auszutauschen oder neu zu starten, und bietet so einen praktischen Latency-Quality-Regler für das Deployment.

English

Autoregressive (AR) language models generate text one token at a time, even when consecutive tokens are highly predictable given earlier context. We introduce MARS (Mask AutoRegreSsion), a lightweight fine-tuning method that teaches an instruction-tuned AR model to predict multiple tokens per forward pass. MARS adds no architectural modifications, no extra parameters, and produces a single model that can still be called exactly like the original AR model with no performance degradation. Unlike speculative decoding, which maintains a separate draft model alongside the target, or multi-head approaches such as Medusa, which attach additional prediction heads, MARS requires only continued training on existing instruction data. When generating one token per forward pass, MARS matches or exceeds the AR baseline on six standard benchmarks. When allowed to accept multiple tokens per step, it maintains baseline-level accuracy while achieving 1.5-1.7x throughput. We further develop a block-level KV caching strategy for batch inference, achieving up to 1.71x wall-clock speedup over AR with KV cache on Qwen2.5-7B. Finally, MARS supports real-time speed adjustment via confidence thresholding: under high request load, the serving system can increase throughput on the fly without swapping models or restarting, providing a practical latency-quality knob for deployment.

MARS: Ermöglichung der Multi-Token-Generierung in autoregressiven Modellen

MARS: Enabling Autoregressive Models Multi-Token Generation

Zusammenfassung

Support