MARS: Abilitazione della Generazione Multi-Token per Modelli Autoregressivi

Abstract

I modelli linguistici autoregressivi (AR) generano testo un token alla volta, anche quando token consecutivi sono altamente prevedibili dato il contesto precedente. Introduciamo MARS (Mask AutoRegreSsion), un metodo di fine-tuning leggero che insegna a un modello AR ottimizzato per istruzioni di prevedere più token per passaggio in avanti. MARS non aggiunge modifiche architetturali, né parametri aggiuntivi, e produce un singolo modello che può ancora essere chiamato esattamente come il modello AR originale senza degradazione delle prestazioni. A differenza del decoding speculativo, che mantiene un modello draft separato affiancato a quello target, o di approcci multi-testa come Medusa, che aggiungono teste di previsione aggiuntive, MARS richiede solo un addestramento continuato su dati di istruzione esistenti. Quando genera un token per passaggio in avanti, MARS eguaglia o supera il baseline AR su sei benchmark standard. Quando gli è consentito di accettare più token per step, mantiene un'accuratezza a livello baseline raggiungendo un throughput di 1,5-1,7x. Sviluppiamo inoltre una strategia di caching KV a livello di blocco per l'inferenza in batch, ottenendo un'accelerazione wall-clock fino a 1,71x rispetto all'AR con cache KV su Qwen2.5-7B. Infine, MARS supporta la regolazione della velocità in tempo reale tramite soglie di confidenza: sotto un alto carico di richieste, il sistema di servizio può aumentare il throughput al volo senza scambiare modelli o riavviare, fornendo una manopola pratica latenza-qualità per il deployment.

English

Autoregressive (AR) language models generate text one token at a time, even when consecutive tokens are highly predictable given earlier context. We introduce MARS (Mask AutoRegreSsion), a lightweight fine-tuning method that teaches an instruction-tuned AR model to predict multiple tokens per forward pass. MARS adds no architectural modifications, no extra parameters, and produces a single model that can still be called exactly like the original AR model with no performance degradation. Unlike speculative decoding, which maintains a separate draft model alongside the target, or multi-head approaches such as Medusa, which attach additional prediction heads, MARS requires only continued training on existing instruction data. When generating one token per forward pass, MARS matches or exceeds the AR baseline on six standard benchmarks. When allowed to accept multiple tokens per step, it maintains baseline-level accuracy while achieving 1.5-1.7x throughput. We further develop a block-level KV caching strategy for batch inference, achieving up to 1.71x wall-clock speedup over AR with KV cache on Qwen2.5-7B. Finally, MARS supports real-time speed adjustment via confidence thresholding: under high request load, the serving system can increase throughput on the fly without swapping models or restarting, providing a practical latency-quality knob for deployment.

MARS: Abilitazione della Generazione Multi-Token per Modelli Autoregressivi

MARS: Enabling Autoregressive Models Multi-Token Generation

Abstract

Support