Cactus: Acceleramento del Decodificatore Auto-Regressivo con Campionamento Speculativo ad Accettazione Vincolata

Abstract

Il campionamento speculativo (SpS) ha avuto successo nell'accelerare il throughput di decodifica dei modelli linguistici di grandi dimensioni auto-regressivi sfruttando modelli draft più piccoli. Lo SpS impone rigorosamente che la distribuzione generata corrisponda a quella del modello LLM verificatore. Questa condizione è inutilmente restrittiva, poiché lievi variazioni della distribuzione del verificatore, come il campionamento con top-k o la temperatura, sarebbero ugualmente accettabili. Il campionamento di accettazione tipico (TAS) mitiga questo problema accettando più token utilizzando euristiche basate sull'entropia. Tuttavia, questo approccio distorce la distribuzione del verificatore, rischiando di degradare la qualità dell'output quando il verificatore codifica informazioni critiche. In questo lavoro, formalizziamo l'algoritmo di campionamento speculativo attraverso la lente dell'ottimizzazione vincolata. Sulla base di questa formulazione, proponiamo Cactus (constrained acceptance speculative sampling), un metodo che garantisce una divergenza controllata dalla distribuzione del verificatore e tassi di accettazione crescenti. I risultati empirici su un'ampia gamma di benchmark confermano l'efficacia del nostro approccio.

English

Speculative sampling (SpS) has been successful in accelerating the decoding throughput of auto-regressive large language models by leveraging smaller draft models. SpS strictly enforces the generated distribution to match that of the verifier LLM. This is unnecessarily restrictive as slight variations of the verifier's distribution, such as sampling with top-k or temperature, would also be acceptable. Typical acceptance sampling (TAS) alleviates this issue by accepting more tokens using entropy-based heuristics. However, this approach distorts the verifier distribution, potentially degrading output quality when the verifier encodes critical information. In this work, we formalize the speculative sampling algorithm through the lens of constrained optimization. Based on this formulation, we propose Cactus (constrained acceptance speculative sampling), a method that guarantees controlled divergence from the verifier distribution and increasing acceptance rates. Empirical results across a wide range of benchmarks confirm the effectiveness of our approach.

Cactus: Acceleramento del Decodificatore Auto-Regressivo con Campionamento Speculativo ad Accettazione Vincolata

Cactus: Accelerating Auto-Regressive Decoding with Constrained Acceptance Speculative Sampling

Abstract

Support