Ouroboros: Decodifica Speculativa con Generazione di Bozze Potenziata da Modelli di Grandi Dimensioni

Abstract

I metodi di decodifica basati su bozze e verifica, come la decodifica speculativa, sono ampiamente adottati come approcci senza addestramento per accelerare l'inferenza dei grandi modelli linguistici (LLM). Invece di impiegare un processo autoregressivo per decodificare i token in sequenza, la decodifica speculativa inizialmente crea bozze utilizzando un modello piccolo ed efficiente. Successivamente, i LLM sono chiamati a condurre la verifica e la correzione in modo non autoregressivo per minimizzare il sovraccarico temporale. Generare bozze più lunghe può portare a accelerazioni ancora più significative una volta verificate, ma comporta anche costi sostanziali di tentativi ed errori in caso di fallimento. Soffrendo di un'elevata probabilità di fallimento nella verifica, i metodi di decodifica esistenti non possono elaborare troppi contenuti per la verifica in una sola volta, ottenendo un'accelerazione dell'inferenza sub-ottimale. In questo articolo, introduciamo Ouroboros, che costruisce un pool di candidati di frasi dal processo di verifica dei LLM per fornire candidati alla generazione di bozze del modello piccolo. In questo modo, Ouroboros può ulteriormente migliorare l'efficienza e l'efficacia delle bozze iniziali. I risultati sperimentali su tipici compiti di generazione di testo mostrano che Ouroboros raggiunge accelerazioni fino a 1,9x e 2,8x rispetto alla decodifica lookahead e alla decodifica speculativa, rispettivamente. Il codice sorgente di Ouroboros è disponibile all'indirizzo https://github.com/thunlp/Ouroboros.

English

Drafting-then-verifying decoding methods such as speculative decoding are widely adopted training-free methods to accelerate the inference of large language models (LLMs). Instead of employing an autoregressive process to decode tokens sequentially, speculative decoding initially creates drafts with an efficient small model. Then LLMs are required to conduct verification and correction in a non-autoregressive fashion to minimize time overhead. Generating longer drafts can lead to even more significant speedups once verified, but also incurs substantial trial and error costs if it fails. Suffering from the high verification failure probability, existing decoding methods cannot draft too much content for verification at one time, achieving sub-optimal inference acceleration. In this paper, we introduce Ouroboros, which constructs a phrase candidate pool from the verification process of LLMs to provide candidates for draft generation of the small model. Thereby, Ouroboros can further improve the efficiency and effectiveness of the initial drafts. The experimental results on typical text generation tasks show that Ouroboros achieves speedups of up to 1.9x and 2.8x compared to lookahead decoding and speculative decoding, respectively. The source code of Ouroboros is available at https://github.com/thunlp/Ouroboros.

Ouroboros: Decodifica Speculativa con Generazione di Bozze Potenziata da Modelli di Grandi Dimensioni

Ouroboros: Speculative Decoding with Large Model Enhanced Drafting

Abstract

Support