OmniDraft: Un Generatore di Bozze Cross-vocabolario e Adattivo Online per il Decodifica Speculativa su Dispositivo

Abstract

La decodifica speculativa generalmente richiede l'utilizzo di un modello draft piccolo ed efficiente che sia pre-addestrato o distillato offline per una specifica serie di modelli target, ad esempio i modelli Llama o Qwen. Tuttavia, negli ambienti di deployment online, ci sono due principali sfide: 1) l'uso di un modello target incompatibile con il modello draft; 2) l'aspettativa di miglioramenti nella latenza nel tempo e durante l'uso. In questo lavoro, proponiamo OmniDraft, un framework unificato che consente a un singolo modello draft di operare con qualsiasi modello target e di adattarsi dinamicamente ai dati dell'utente. Introduciamo una cache n-gram online con fine-tuning di distillazione ibrida per affrontare il disallineamento del vocabolario tra i modelli draft e target; e miglioriamo ulteriormente la velocità di decodifica sfruttando tecniche di drafting adattivo. OmniDraft è particolarmente adatto per applicazioni LLM su dispositivo in cui il costo del modello, l'efficienza e la personalizzazione dell'utente sono i principali punti di contesa. Ciò evidenzia ulteriormente la necessità di affrontare le sfide sopra menzionate e motiva il paradigma "un draft per tutti". Dimostriamo la competenza del framework OmniDraft eseguendo apprendimento online su compiti di ragionamento matematico, codifica e generazione di testo. In particolare, OmniDraft consente a un singolo modello Llama-68M di accoppiarsi con vari modelli target, inclusi Vicuna-7B, Qwen2-7B e Llama3-8B, per la decodifica speculativa; e fornisce inoltre un aumento di velocità fino a 1,5-2x.

English

Speculative decoding generally dictates having a small, efficient draft model that is either pretrained or distilled offline to a particular target model series, for instance, Llama or Qwen models. However, within online deployment settings, there are two major challenges: 1) usage of a target model that is incompatible with the draft model; 2) expectation of latency improvements over usage and time. In this work, we propose OmniDraft, a unified framework that enables a single draft model to operate with any target model and adapt dynamically to user data. We introduce an online n-gram cache with hybrid distillation fine-tuning to address the cross-vocabulary mismatch across draft and target models; and further improve decoding speed by leveraging adaptive drafting techniques. OmniDraft is particularly suitable for on-device LLM applications where model cost, efficiency and user customization are the major points of contention. This further highlights the need to tackle the above challenges and motivates the ``one drafter for all'' paradigm. We showcase the proficiency of the OmniDraft framework by performing online learning on math reasoning, coding and text generation tasks. Notably, OmniDraft enables a single Llama-68M model to pair with various target models including Vicuna-7B, Qwen2-7B and Llama3-8B models for speculative decoding; and additionally provides up to 1.5-2x speedup.

OmniDraft: Un Generatore di Bozze Cross-vocabolario e Adattivo Online per il Decodifica Speculativa su Dispositivo

OmniDraft: A Cross-vocabulary, Online Adaptive Drafter for On-device Speculative Decoding

Abstract

Support