MARS: Habilitando la Generación Multitoken en Modelos Autoregresivos

Resumen

Los modelos de lenguaje autorregresivos (AR) generan texto un token a la vez, incluso cuando los tokens consecutivos son altamente predecibles dado el contexto anterior. Presentamos MARS (Mask AutoRegreSsive), un método de ajuste fino ligero que enseña a un modelo AR sintonizado por instrucciones a predecir múltiples tokens por pasada hacia adelante. MARS no añade modificaciones arquitectónicas, ni parámetros adicionales, y produce un único modelo que aún puede invocarse exactamente igual que el modelo AR original sin degradación del rendimiento. A diferencia del decodificado especulativo, que mantiene un modelo de borrador separado junto al objetivo, o de enfoques multi-cabezal como Medusa, que adjuntan cabezales de predicción adicionales, MARS solo requiere entrenamiento continuo con datos de instrucción existentes. Al generar un token por pasada hacia adelante, MARS iguala o supera la línea base AR en seis benchmarks estándar. Cuando se le permite aceptar múltiples tokens por paso, mantiene una precisión a nivel de la línea base mientras logra un rendimiento de 1.5-1.7x. Desarrollamos además una estrategia de caché KV a nivel de bloque para inferencia por lotes, logrando una aceleración en tiempo real de hasta 1.71x sobre AR con caché KV en Qwen2.5-7B. Finalmente, MARS admite el ajuste de velocidad en tiempo real mediante umbrales de confianza: bajo una carga alta de peticiones, el sistema de servicio puede aumentar el rendimiento sobre la marcha sin cambiar de modelos o reiniciar, proporcionando un control práctico de latencia-calidad para el despliegue.

English

Autoregressive (AR) language models generate text one token at a time, even when consecutive tokens are highly predictable given earlier context. We introduce MARS (Mask AutoRegreSsion), a lightweight fine-tuning method that teaches an instruction-tuned AR model to predict multiple tokens per forward pass. MARS adds no architectural modifications, no extra parameters, and produces a single model that can still be called exactly like the original AR model with no performance degradation. Unlike speculative decoding, which maintains a separate draft model alongside the target, or multi-head approaches such as Medusa, which attach additional prediction heads, MARS requires only continued training on existing instruction data. When generating one token per forward pass, MARS matches or exceeds the AR baseline on six standard benchmarks. When allowed to accept multiple tokens per step, it maintains baseline-level accuracy while achieving 1.5-1.7x throughput. We further develop a block-level KV caching strategy for batch inference, achieving up to 1.71x wall-clock speedup over AR with KV cache on Qwen2.5-7B. Finally, MARS supports real-time speed adjustment via confidence thresholding: under high request load, the serving system can increase throughput on the fly without swapping models or restarting, providing a practical latency-quality knob for deployment.

MARS: Habilitando la Generación Multitoken en Modelos Autoregresivos

MARS: Enabling Autoregressive Models Multi-Token Generation

Resumen

Support