MARS: Permitindo a Geração Multi-Token em Modelos Autoregressivos

Resumo

Os modelos de linguagem autoregressivos (AR) geram texto um *token* por vez, mesmo quando *tokens* consecutivos são altamente previsíveis dado o contexto anterior. Apresentamos o MARS (*Mask AutoRegreSsion*), um método de ajuste fino leve que ensina um modelo AR ajustado por instrução a prever múltiplos *tokens* por passagem de avanço (*forward pass*). O MARS não adiciona modificações arquiteturais, nem parâmetros extras, e produz um único modelo que ainda pode ser chamado exatamente como o modelo AR original, sem degradação de desempenho. Diferente da decodificação especulativa, que mantém um modelo rascunho separado junto ao modelo alvo, ou de abordagens de múltiplas cabeças como a Medusa, que anexam cabeças de predição adicionais, o MARS requer apenas treinamento contínuo em dados de instrução existentes. Ao gerar um *token* por passagem de avanço, o MARS iguala ou supera a linha de base AR em seis *benchmarks* padrão. Quando permitido aceitar múltiplos *tokens* por passo, ele mantém a precisão em nível de linha de base enquanto alcança um *throughput* de 1,5-1,7x. Desenvolvemos ainda uma estratégia de cache KV em nível de bloco para inferência em lote, alcançando até 1,71x de aceleração em tempo real (*wall-clock*) sobre o AR com cache KV no Qwen2.5-7B. Finalmente, o MARS suporta ajuste de velocidade em tempo real via limiar de confiança: sob alta carga de solicitações, o sistema de serviço pode aumentar o *throughput* dinamicamente sem trocar modelos ou reiniciar, fornecendo um botão prático de *latency-quality* para implantação.

English

Autoregressive (AR) language models generate text one token at a time, even when consecutive tokens are highly predictable given earlier context. We introduce MARS (Mask AutoRegreSsion), a lightweight fine-tuning method that teaches an instruction-tuned AR model to predict multiple tokens per forward pass. MARS adds no architectural modifications, no extra parameters, and produces a single model that can still be called exactly like the original AR model with no performance degradation. Unlike speculative decoding, which maintains a separate draft model alongside the target, or multi-head approaches such as Medusa, which attach additional prediction heads, MARS requires only continued training on existing instruction data. When generating one token per forward pass, MARS matches or exceeds the AR baseline on six standard benchmarks. When allowed to accept multiple tokens per step, it maintains baseline-level accuracy while achieving 1.5-1.7x throughput. We further develop a block-level KV caching strategy for batch inference, achieving up to 1.71x wall-clock speedup over AR with KV cache on Qwen2.5-7B. Finally, MARS supports real-time speed adjustment via confidence thresholding: under high request load, the serving system can increase throughput on the fly without swapping models or restarting, providing a practical latency-quality knob for deployment.

MARS: Permitindo a Geração Multi-Token em Modelos Autoregressivos

MARS: Enabling Autoregressive Models Multi-Token Generation

Resumo

Support