OmniDraft: Um Rascunhador Adaptativo Online de Vocabulário Cruzado para Decodificação Especulativa em Dispositivos Locais
OmniDraft: A Cross-vocabulary, Online Adaptive Drafter for On-device Speculative Decoding
July 3, 2025
Autores: Ramchalam Kinattinkara Ramakrishnan, Zhaocong Yuan, Shaojie Zhuo, Chen Feng, Yicheng Lin, Chenzheng Su, Xiaopeng Zhang
cs.AI
Resumo
A decodificação especulativa geralmente exige um modelo de rascunho pequeno e eficiente que seja pré-treinado ou destilado offline para uma série específica de modelos alvo, como os modelos Llama ou Qwen. No entanto, em cenários de implantação online, há dois grandes desafios: 1) o uso de um modelo alvo que é incompatível com o modelo de rascunho; 2) a expectativa de melhorias de latência ao longo do uso e do tempo. Neste trabalho, propomos o OmniDraft, uma estrutura unificada que permite que um único modelo de rascunho opere com qualquer modelo alvo e se adapte dinamicamente aos dados do usuário. Introduzimos um cache de n-gramas online com ajuste fino de destilação híbrida para abordar a incompatibilidade de vocabulário entre os modelos de rascunho e alvo; e ainda melhoramos a velocidade de decodificação ao aproveitar técnicas de rascunho adaptativo. O OmniDraft é particularmente adequado para aplicações de LLM em dispositivos onde o custo do modelo, a eficiência e a personalização do usuário são os principais pontos de discussão. Isso destaca ainda mais a necessidade de enfrentar os desafios mencionados e motiva o paradigma de "um rascunho para todos". Demonstramos a proficiência da estrutura OmniDraft ao realizar aprendizado online em tarefas de raciocínio matemático, codificação e geração de texto. Notavelmente, o OmniDraft permite que um único modelo Llama-68M seja emparelhado com vários modelos alvo, incluindo Vicuna-7B, Qwen2-7B e Llama3-8B, para decodificação especulativa; e ainda proporciona uma aceleração de até 1,5 a 2 vezes.
English
Speculative decoding generally dictates having a small, efficient draft model
that is either pretrained or distilled offline to a particular target model
series, for instance, Llama or Qwen models. However, within online deployment
settings, there are two major challenges: 1) usage of a target model that is
incompatible with the draft model; 2) expectation of latency improvements over
usage and time. In this work, we propose OmniDraft, a unified framework that
enables a single draft model to operate with any target model and adapt
dynamically to user data. We introduce an online n-gram cache with hybrid
distillation fine-tuning to address the cross-vocabulary mismatch across draft
and target models; and further improve decoding speed by leveraging adaptive
drafting techniques. OmniDraft is particularly suitable for on-device LLM
applications where model cost, efficiency and user customization are the major
points of contention. This further highlights the need to tackle the above
challenges and motivates the ``one drafter for all'' paradigm. We
showcase the proficiency of the OmniDraft framework by performing online
learning on math reasoning, coding and text generation tasks. Notably,
OmniDraft enables a single Llama-68M model to pair with various target models
including Vicuna-7B, Qwen2-7B and Llama3-8B models for speculative decoding;
and additionally provides up to 1.5-2x speedup.