OmniDraft: Un Generador Adaptativo en Línea y Multivocabulario para Decodificación Especulativa en Dispositivos
OmniDraft: A Cross-vocabulary, Online Adaptive Drafter for On-device Speculative Decoding
July 3, 2025
Autores: Ramchalam Kinattinkara Ramakrishnan, Zhaocong Yuan, Shaojie Zhuo, Chen Feng, Yicheng Lin, Chenzheng Su, Xiaopeng Zhang
cs.AI
Resumen
La decodificación especulativa generalmente requiere un modelo borrador pequeño y eficiente que esté preentrenado o destilado fuera de línea para una serie de modelos objetivo específica, como los modelos Llama o Qwen. Sin embargo, en entornos de implementación en línea, existen dos desafíos principales: 1) el uso de un modelo objetivo que es incompatible con el modelo borrador; 2) la expectativa de mejoras en la latencia durante el uso y el tiempo. En este trabajo, proponemos OmniDraft, un marco unificado que permite que un único modelo borrador opere con cualquier modelo objetivo y se adapte dinámicamente a los datos del usuario. Introducimos una caché de n-gramas en línea con ajuste fino de destilación híbrida para abordar la incompatibilidad de vocabulario entre los modelos borrador y objetivo; y además mejoramos la velocidad de decodificación mediante técnicas de borrado adaptativo. OmniDraft es particularmente adecuado para aplicaciones de LLM en dispositivos donde el costo del modelo, la eficiencia y la personalización del usuario son los principales puntos de discusión. Esto resalta aún más la necesidad de abordar los desafíos mencionados y motiva el paradigma de "un borrador para todos". Demostramos la eficacia del marco OmniDraft realizando aprendizaje en línea en tareas de razonamiento matemático, codificación y generación de texto. Notablemente, OmniDraft permite que un único modelo Llama-68M se empareje con varios modelos objetivo, incluyendo Vicuna-7B, Qwen2-7B y Llama3-8B, para la decodificación especulativa; y además proporciona una aceleración de hasta 1.5-2x.
English
Speculative decoding generally dictates having a small, efficient draft model
that is either pretrained or distilled offline to a particular target model
series, for instance, Llama or Qwen models. However, within online deployment
settings, there are two major challenges: 1) usage of a target model that is
incompatible with the draft model; 2) expectation of latency improvements over
usage and time. In this work, we propose OmniDraft, a unified framework that
enables a single draft model to operate with any target model and adapt
dynamically to user data. We introduce an online n-gram cache with hybrid
distillation fine-tuning to address the cross-vocabulary mismatch across draft
and target models; and further improve decoding speed by leveraging adaptive
drafting techniques. OmniDraft is particularly suitable for on-device LLM
applications where model cost, efficiency and user customization are the major
points of contention. This further highlights the need to tackle the above
challenges and motivates the ``one drafter for all'' paradigm. We
showcase the proficiency of the OmniDraft framework by performing online
learning on math reasoning, coding and text generation tasks. Notably,
OmniDraft enables a single Llama-68M model to pair with various target models
including Vicuna-7B, Qwen2-7B and Llama3-8B models for speculative decoding;
and additionally provides up to 1.5-2x speedup.