OmniDraft: Um Rascunhador Adaptativo Online de Vocabulário Cruzado para Decodificação Especulativa em Dispositivos Locais

Resumo

A decodificação especulativa geralmente exige um modelo de rascunho pequeno e eficiente que seja pré-treinado ou destilado offline para uma série específica de modelos alvo, como os modelos Llama ou Qwen. No entanto, em cenários de implantação online, há dois grandes desafios: 1) o uso de um modelo alvo que é incompatível com o modelo de rascunho; 2) a expectativa de melhorias de latência ao longo do uso e do tempo. Neste trabalho, propomos o OmniDraft, uma estrutura unificada que permite que um único modelo de rascunho opere com qualquer modelo alvo e se adapte dinamicamente aos dados do usuário. Introduzimos um cache de n-gramas online com ajuste fino de destilação híbrida para abordar a incompatibilidade de vocabulário entre os modelos de rascunho e alvo; e ainda melhoramos a velocidade de decodificação ao aproveitar técnicas de rascunho adaptativo. O OmniDraft é particularmente adequado para aplicações de LLM em dispositivos onde o custo do modelo, a eficiência e a personalização do usuário são os principais pontos de discussão. Isso destaca ainda mais a necessidade de enfrentar os desafios mencionados e motiva o paradigma de "um rascunho para todos". Demonstramos a proficiência da estrutura OmniDraft ao realizar aprendizado online em tarefas de raciocínio matemático, codificação e geração de texto. Notavelmente, o OmniDraft permite que um único modelo Llama-68M seja emparelhado com vários modelos alvo, incluindo Vicuna-7B, Qwen2-7B e Llama3-8B, para decodificação especulativa; e ainda proporciona uma aceleração de até 1,5 a 2 vezes.

English

Speculative decoding generally dictates having a small, efficient draft model that is either pretrained or distilled offline to a particular target model series, for instance, Llama or Qwen models. However, within online deployment settings, there are two major challenges: 1) usage of a target model that is incompatible with the draft model; 2) expectation of latency improvements over usage and time. In this work, we propose OmniDraft, a unified framework that enables a single draft model to operate with any target model and adapt dynamically to user data. We introduce an online n-gram cache with hybrid distillation fine-tuning to address the cross-vocabulary mismatch across draft and target models; and further improve decoding speed by leveraging adaptive drafting techniques. OmniDraft is particularly suitable for on-device LLM applications where model cost, efficiency and user customization are the major points of contention. This further highlights the need to tackle the above challenges and motivates the ``one drafter for all'' paradigm. We showcase the proficiency of the OmniDraft framework by performing online learning on math reasoning, coding and text generation tasks. Notably, OmniDraft enables a single Llama-68M model to pair with various target models including Vicuna-7B, Qwen2-7B and Llama3-8B models for speculative decoding; and additionally provides up to 1.5-2x speedup.

OmniDraft: Um Rascunhador Adaptativo Online de Vocabulário Cruzado para Decodificação Especulativa em Dispositivos Locais

OmniDraft: A Cross-vocabulary, Online Adaptive Drafter for On-device Speculative Decoding

Resumo

Support