OmniDraft: Un Generatore di Bozze Cross-vocabolario e Adattivo Online per il Decodifica Speculativa su Dispositivo
OmniDraft: A Cross-vocabulary, Online Adaptive Drafter for On-device Speculative Decoding
July 3, 2025
Autori: Ramchalam Kinattinkara Ramakrishnan, Zhaocong Yuan, Shaojie Zhuo, Chen Feng, Yicheng Lin, Chenzheng Su, Xiaopeng Zhang
cs.AI
Abstract
La decodifica speculativa generalmente richiede l'utilizzo di un modello draft piccolo ed efficiente che sia pre-addestrato o distillato offline per una specifica serie di modelli target, ad esempio i modelli Llama o Qwen. Tuttavia, negli ambienti di deployment online, ci sono due principali sfide: 1) l'uso di un modello target incompatibile con il modello draft; 2) l'aspettativa di miglioramenti nella latenza nel tempo e durante l'uso. In questo lavoro, proponiamo OmniDraft, un framework unificato che consente a un singolo modello draft di operare con qualsiasi modello target e di adattarsi dinamicamente ai dati dell'utente. Introduciamo una cache n-gram online con fine-tuning di distillazione ibrida per affrontare il disallineamento del vocabolario tra i modelli draft e target; e miglioriamo ulteriormente la velocità di decodifica sfruttando tecniche di drafting adattivo. OmniDraft è particolarmente adatto per applicazioni LLM su dispositivo in cui il costo del modello, l'efficienza e la personalizzazione dell'utente sono i principali punti di contesa. Ciò evidenzia ulteriormente la necessità di affrontare le sfide sopra menzionate e motiva il paradigma "un draft per tutti". Dimostriamo la competenza del framework OmniDraft eseguendo apprendimento online su compiti di ragionamento matematico, codifica e generazione di testo. In particolare, OmniDraft consente a un singolo modello Llama-68M di accoppiarsi con vari modelli target, inclusi Vicuna-7B, Qwen2-7B e Llama3-8B, per la decodifica speculativa; e fornisce inoltre un aumento di velocità fino a 1,5-2x.
English
Speculative decoding generally dictates having a small, efficient draft model
that is either pretrained or distilled offline to a particular target model
series, for instance, Llama or Qwen models. However, within online deployment
settings, there are two major challenges: 1) usage of a target model that is
incompatible with the draft model; 2) expectation of latency improvements over
usage and time. In this work, we propose OmniDraft, a unified framework that
enables a single draft model to operate with any target model and adapt
dynamically to user data. We introduce an online n-gram cache with hybrid
distillation fine-tuning to address the cross-vocabulary mismatch across draft
and target models; and further improve decoding speed by leveraging adaptive
drafting techniques. OmniDraft is particularly suitable for on-device LLM
applications where model cost, efficiency and user customization are the major
points of contention. This further highlights the need to tackle the above
challenges and motivates the ``one drafter for all'' paradigm. We
showcase the proficiency of the OmniDraft framework by performing online
learning on math reasoning, coding and text generation tasks. Notably,
OmniDraft enables a single Llama-68M model to pair with various target models
including Vicuna-7B, Qwen2-7B and Llama3-8B models for speculative decoding;
and additionally provides up to 1.5-2x speedup.