MARS: Autoregressieve Modellen Multi-Token Generatie Mogelĳk Maken

Samenvatting

Autoregressieve (AR) taalmodellen genereren tekst token voor token, zelfs wanneer opeenvolgende tokens zeer voorspelbaar zijn gegeven de eerdere context. Wij introduceren MARS (Mask AutoRegreSsion), een lichtgewicht *fine-tuning* methode die een instructie-afgestemd AR-model leert om meerdere tokens per *forward pass* te voorspellen. MARS voegt geen architectuurwijzigingen of extra parameters toe en produceert een enkel model dat nog steeds exact zoals het originele AR-model kan worden aangeroepen zonder prestatieverlies. In tegenstelling tot *speculative decoding*, dat een apart *draft*-model naast het doelmodel aanhoudt, of multi-head benaderingen zoals Medusa, die extra voorspellingskoppen toevoegen, vereist MARS enkel voortgezette training op bestaande instructiedata. Bij het genereren van één token per *forward pass* evenaart of overtreft MARS de AR-basislijn op zes standaardbenchmarks. Wanneer het meerdere tokens per stap mag accepteren, behoudt het basislijnnauwkeurigheid en behaalt het een doorvoersnelheid van 1.5-1.7x. Wij ontwikkelden verder een *block-level* KV-cachingstrategie voor *batch inference*, wat een *wall-clock* versnelling tot 1.71x oplevert ten opzichte van AR met KV-cache op Qwen2.5-7B. Ten slotte ondersteunt MARS real-time snelheidsaanpassing via *confidence thresholding*: bij hoge aanvraagbelasting kan het *serving*-systeem de doorvoer on-the-fly verhogen zonder modellen te wisselen of opnieuw op te starten, wat een praktische *latency-quality* knop biedt voor implementatie.

English

Autoregressive (AR) language models generate text one token at a time, even when consecutive tokens are highly predictable given earlier context. We introduce MARS (Mask AutoRegreSsion), a lightweight fine-tuning method that teaches an instruction-tuned AR model to predict multiple tokens per forward pass. MARS adds no architectural modifications, no extra parameters, and produces a single model that can still be called exactly like the original AR model with no performance degradation. Unlike speculative decoding, which maintains a separate draft model alongside the target, or multi-head approaches such as Medusa, which attach additional prediction heads, MARS requires only continued training on existing instruction data. When generating one token per forward pass, MARS matches or exceeds the AR baseline on six standard benchmarks. When allowed to accept multiple tokens per step, it maintains baseline-level accuracy while achieving 1.5-1.7x throughput. We further develop a block-level KV caching strategy for batch inference, achieving up to 1.71x wall-clock speedup over AR with KV cache on Qwen2.5-7B. Finally, MARS supports real-time speed adjustment via confidence thresholding: under high request load, the serving system can increase throughput on the fly without swapping models or restarting, providing a practical latency-quality knob for deployment.

MARS: Autoregressieve Modellen Multi-Token Generatie Mogelĳk Maken

MARS: Enabling Autoregressive Models Multi-Token Generation

Samenvatting

Support