Set Block Decoding è un acceleratore per l'inferenza nei modelli linguistici.

Abstract

I modelli linguistici autoregressivi per la previsione del token successivo offrono capacità potenti, ma affrontano sfide significative nella distribuzione pratica a causa degli elevati costi computazionali e di memoria durante l'inferenza, in particolare nella fase di decodifica. Introduciamo il Set Block Decoding (SBD), un paradigma semplice e flessibile che accelera la generazione integrando la previsione standard del token successivo (NTP) e la previsione del token mascherato (MATP) all'interno di un'unica architettura. SBD consente al modello di campionare più token futuri, non necessariamente consecutivi, in parallelo, una distinzione chiave rispetto ai metodi di accelerazione precedenti. Questa flessibilità permette l'uso di risolutori avanzati tratti dalla letteratura sulla diffusione discreta, offrendo accelerazioni significative senza sacrificare l'accuratezza. SBD non richiede modifiche architetturali o iperparametri di addestramento aggiuntivi, mantiene la compatibilità con la KV-caching esatta e può essere implementato tramite il fine-tuning di modelli esistenti per la previsione del token successivo. Mediante il fine-tuning di Llama-3.1 8B e Qwen-3 8B, dimostriamo che SBD consente una riduzione di 3-5x nel numero di passaggi in avanti necessari per la generazione, mantenendo le stesse prestazioni dell'addestramento NTP equivalente.

English

Autoregressive next token prediction language models offer powerful capabilities but face significant challenges in practical deployment due to the high computational and memory costs of inference, particularly during the decoding stage. We introduce Set Block Decoding (SBD), a simple and flexible paradigm that accelerates generation by integrating standard next token prediction (NTP) and masked token prediction (MATP) within a single architecture. SBD allows the model to sample multiple, not necessarily consecutive, future tokens in parallel, a key distinction from previous acceleration methods. This flexibility allows the use of advanced solvers from the discrete diffusion literature, offering significant speedups without sacrificing accuracy. SBD requires no architectural changes or extra training hyperparameters, maintains compatibility with exact KV-caching, and can be implemented by fine-tuning existing next token prediction models. By fine-tuning Llama-3.1 8B and Qwen-3 8B, we demonstrate that SBD enables a 3-5x reduction in the number of forward passes required for generation while achieving same performance as equivalent NTP training.

Set Block Decoding è un acceleratore per l'inferenza nei modelli linguistici.

Set Block Decoding is a Language Model Inference Accelerator

Abstract

Support