OmniDraft : Un générateur de brouillons inter-vocabulaires, adaptatif en ligne pour le décodage spéculatif sur appareil
OmniDraft: A Cross-vocabulary, Online Adaptive Drafter for On-device Speculative Decoding
July 3, 2025
Auteurs: Ramchalam Kinattinkara Ramakrishnan, Zhaocong Yuan, Shaojie Zhuo, Chen Feng, Yicheng Lin, Chenzheng Su, Xiaopeng Zhang
cs.AI
Résumé
Le décodage spéculatif nécessite généralement un modèle de brouillon petit et efficace, soit pré-entraîné, soit distillé hors ligne pour une série de modèles cibles spécifiques, comme les modèles Llama ou Qwen. Cependant, dans les contextes de déploiement en ligne, deux défis majeurs se posent : 1) l'utilisation d'un modèle cible incompatible avec le modèle de brouillon ; 2) l'attente d'améliorations de latence au fil de l'utilisation et du temps. Dans ce travail, nous proposons OmniDraft, un cadre unifié permettant à un seul modèle de brouillon de fonctionner avec n'importe quel modèle cible et de s'adapter dynamiquement aux données utilisateur. Nous introduisons un cache n-gramme en ligne avec un affinage par distillation hybride pour résoudre le problème d'incompatibilité de vocabulaire entre les modèles de brouillon et cibles ; et nous améliorons davantage la vitesse de décodage en exploitant des techniques de brouillonnage adaptatives. OmniDraft est particulièrement adapté aux applications de LLM sur appareil, où le coût du modèle, l'efficacité et la personnalisation utilisateur sont les principaux points de friction. Cela souligne encore la nécessité de relever les défis mentionnés et motive le paradigme « un brouillon pour tous ». Nous démontrons la compétence du cadre OmniDraft en effectuant un apprentissage en ligne sur des tâches de raisonnement mathématique, de codage et de génération de texte. Notamment, OmniDraft permet à un seul modèle Llama-68M de s'associer à divers modèles cibles, y compris Vicuna-7B, Qwen2-7B et Llama3-8B, pour le décodage spéculatif ; et offre en outre une accélération allant jusqu'à 1,5 à 2 fois.
English
Speculative decoding generally dictates having a small, efficient draft model
that is either pretrained or distilled offline to a particular target model
series, for instance, Llama or Qwen models. However, within online deployment
settings, there are two major challenges: 1) usage of a target model that is
incompatible with the draft model; 2) expectation of latency improvements over
usage and time. In this work, we propose OmniDraft, a unified framework that
enables a single draft model to operate with any target model and adapt
dynamically to user data. We introduce an online n-gram cache with hybrid
distillation fine-tuning to address the cross-vocabulary mismatch across draft
and target models; and further improve decoding speed by leveraging adaptive
drafting techniques. OmniDraft is particularly suitable for on-device LLM
applications where model cost, efficiency and user customization are the major
points of contention. This further highlights the need to tackle the above
challenges and motivates the ``one drafter for all'' paradigm. We
showcase the proficiency of the OmniDraft framework by performing online
learning on math reasoning, coding and text generation tasks. Notably,
OmniDraft enables a single Llama-68M model to pair with various target models
including Vicuna-7B, Qwen2-7B and Llama3-8B models for speculative decoding;
and additionally provides up to 1.5-2x speedup.