LK-потери: Прямая оптимизация коэффициента принятия для спекулятивного декодирования

Аннотация

Спекулятивное декодирование ускоряет инференцию авторегрессионных больших языковых моделей (LLM) за счёт использования облегчённой черновой модели для предложения кандидатных токенов, которые затем параллельно проверяются целевой моделью. Скорость работы в значительной степени определяется процентом принятия (acceptance rate), однако стандартное обучение минимизирует расхождение Кульбака-Лейблера (KL) в качестве суррогатной цели. Хотя KL-расхождение и процент принятия имеют одинаковый глобальный оптимум, небольшие черновые модели с ограниченной ёмкостью обычно сходятся к субоптимальным решениям, где минимизация KL не гарантирует максимизацию процента принятия. Для решения этой проблемы мы предлагаем LK-функции потерь — специальные целевые функции обучения, непосредственно направленные на максимизацию процента принятия. Всесторонние эксперименты с четырьмя архитектурами черновых моделей и шестью целевыми моделями, варьирующимися от 8 до 685 миллиардов параметров, демонстрируют стабильное улучшение метрик принятия во всех конфигурациях по сравнению со стандартным обучением на основе KL. Мы оцениваем наш подход в общих, программных и математических областях и сообщаем о повышении средней длины принятия до 8-10%. LK-функции потерь просты в реализации, не вводят вычислительных накладных расходов и могут быть напрямую интегрированы в любую существующую систему обучения спекулятивных моделей, что делает их убедительной альтернативой существующим целям обучения черновых моделей.

English

Speculative decoding accelerates autoregressive large language model (LLM) inference by using a lightweight draft model to propose candidate tokens that are then verified in parallel by the target model. The speedup is significantly determined by the acceptance rate, yet standard training minimizes Kullback-Leibler (KL) divergence as a proxy objective. While KL divergence and acceptance rate share the same global optimum, small draft models, having limited capacity, typically converge to suboptimal solutions where minimizing KL does not guarantee maximizing acceptance rate. To address this issue, we propose LK losses, special training objectives that directly target acceptance rate. Comprehensive experiments across four draft architectures and six target models, ranging from 8B to 685B parameters, demonstrate consistent improvements in acceptance metrics across all configurations compared to the standard KL-based training. We evaluate our approach on general, coding and math domains and report gains of up to 8-10% in average acceptance length. LK losses are easy to implement, introduce no computational overhead and can be directly integrated into any existing speculator training framework, making them a compelling alternative to the existing draft training objectives.

LK-потери: Прямая оптимизация коэффициента принятия для спекулятивного декодирования

LK Losses: Direct Acceptance Rate Optimization for Speculative Decoding

Аннотация

Support