MARS : Permettre aux modèles autorégressifs une génération multi-jetons

Résumé

Les modèles de langage autorégressifs (AR) génèrent du texte token par token, même lorsque les tokens consécutifs sont hautement prévisibles compte tenu du contexte antérieur. Nous présentons MARS (Mask AutoRegreSsion), une méthode de fine-tuning légère qui apprend à un modèle AR ajusté aux instructions de prédire plusieurs tokens par passage avant. MARS n'ajoute aucune modification architecturale, aucun paramètre supplémentaire, et produit un modèle unique pouvant toujours être appelé exactement comme le modèle AR original sans dégradation des performances. Contrairement au décodage spéculatif qui maintient un modèle de brouillon séparé parallèlement à la cible, ou aux approches multi-têtes comme Medusa qui attachent des têtes de prédiction supplémentaires, MARS ne nécessite qu'un entraînement continu sur des données d'instruction existantes. Lors de la génération d'un token par passage avant, MARS égale ou dépasse la baseline AR sur six benchmarks standards. Lorsqu'il est autorisé à accepter plusieurs tokens par étape, il maintient une précision équivalente à la baseline tout en atteignant un débit 1,5 à 1,7 fois supérieur. Nous développons en outre une stratégie de mise en cache KV au niveau des blocs pour l'inférence par lots, atteignant jusqu'à 1,71x d'accélération en temps réel par rapport à AR avec cache KV sur Qwen2.5-7B. Enfin, MARS prend en charge l'ajustement de vitesse en temps réel via un seuillage de confiance : sous charge de requêtes élevée, le système de service peut augmenter le débit à la volée sans échanger de modèles ni redémarrer, fournissant ainsi un réglage pratique latence-qualité pour le déploiement.

English

Autoregressive (AR) language models generate text one token at a time, even when consecutive tokens are highly predictable given earlier context. We introduce MARS (Mask AutoRegreSsion), a lightweight fine-tuning method that teaches an instruction-tuned AR model to predict multiple tokens per forward pass. MARS adds no architectural modifications, no extra parameters, and produces a single model that can still be called exactly like the original AR model with no performance degradation. Unlike speculative decoding, which maintains a separate draft model alongside the target, or multi-head approaches such as Medusa, which attach additional prediction heads, MARS requires only continued training on existing instruction data. When generating one token per forward pass, MARS matches or exceeds the AR baseline on six standard benchmarks. When allowed to accept multiple tokens per step, it maintains baseline-level accuracy while achieving 1.5-1.7x throughput. We further develop a block-level KV caching strategy for batch inference, achieving up to 1.71x wall-clock speedup over AR with KV cache on Qwen2.5-7B. Finally, MARS supports real-time speed adjustment via confidence thresholding: under high request load, the serving system can increase throughput on the fly without swapping models or restarting, providing a practical latency-quality knob for deployment.

MARS : Permettre aux modèles autorégressifs une génération multi-jetons

MARS: Enabling Autoregressive Models Multi-Token Generation

Résumé

Support