OmniDraft: Кросс-словарный, адаптивный онлайн-драфтер для спекулятивного декодирования на устройстве

Аннотация

Спекулятивное декодирование, как правило, предполагает использование небольшой и эффективной черновой модели, которая либо предварительно обучена, либо дистиллирована оффлайн для конкретной серии целевых моделей, например, моделей Llama или Qwen. Однако в условиях онлайн-развертывания возникают две основные проблемы: 1) использование целевой модели, несовместимой с черновой моделью; 2) ожидание улучшения задержек в процессе использования и со временем. В данной работе мы предлагаем OmniDraft — унифицированную структуру, которая позволяет одной черновой модели работать с любой целевой моделью и динамически адаптироваться к пользовательским данным. Мы вводим онлайн n-граммный кэш с гибридной дистилляционной тонкой настройкой для устранения несоответствий в словарях между черновой и целевой моделями; а также дополнительно улучшаем скорость декодирования за счет адаптивных техник чернового прогнозирования. OmniDraft особенно подходит для приложений LLM на устройствах, где стоимость модели, эффективность и пользовательская настройка являются основными точками разногласий. Это подчеркивает необходимость решения вышеуказанных проблем и мотивирует парадигму «один черновик для всех». Мы демонстрируем эффективность структуры OmniDraft, выполняя онлайн-обучение на задачах математического рассуждения, программирования и генерации текста. В частности, OmniDraft позволяет одной модели Llama-68M работать с различными целевыми моделями, включая Vicuna-7B, Qwen2-7B и Llama3-8B, для спекулятивного декодирования; а также обеспечивает ускорение до 1,5–2 раз.

English

Speculative decoding generally dictates having a small, efficient draft model that is either pretrained or distilled offline to a particular target model series, for instance, Llama or Qwen models. However, within online deployment settings, there are two major challenges: 1) usage of a target model that is incompatible with the draft model; 2) expectation of latency improvements over usage and time. In this work, we propose OmniDraft, a unified framework that enables a single draft model to operate with any target model and adapt dynamically to user data. We introduce an online n-gram cache with hybrid distillation fine-tuning to address the cross-vocabulary mismatch across draft and target models; and further improve decoding speed by leveraging adaptive drafting techniques. OmniDraft is particularly suitable for on-device LLM applications where model cost, efficiency and user customization are the major points of contention. This further highlights the need to tackle the above challenges and motivates the ``one drafter for all'' paradigm. We showcase the proficiency of the OmniDraft framework by performing online learning on math reasoning, coding and text generation tasks. Notably, OmniDraft enables a single Llama-68M model to pair with various target models including Vicuna-7B, Qwen2-7B and Llama3-8B models for speculative decoding; and additionally provides up to 1.5-2x speedup.

OmniDraft: Кросс-словарный, адаптивный онлайн-драфтер для спекулятивного декодирования на устройстве

OmniDraft: A Cross-vocabulary, Online Adaptive Drafter for On-device Speculative Decoding

Аннотация

Support