Ускорение вывода языковых моделей с использованием поэтапного спекулятивного декодирования

Аннотация

Последние достижения в области больших языковых моделей (LLM) демонстрируют их разнообразные возможности. Мы предлагаем новый алгоритм, поэтапное спекулятивное декодирование, для ускорения вывода LLM в сценариях с малыми пакетами данных на устройствах. Мы решаем проблему низкой арифметической интенсивности при выводе с малыми пакетами, улучшая предыдущие работы в области спекулятивного декодирования. Во-первых, мы реструктурируем спекулятивный пакет в виде дерева, что снижает затраты на генерацию и увеличивает ожидаемое количество токенов на пакет. Во-вторых, мы добавляем второй этап спекулятивного декодирования. В совокупности это позволяет сократить задержку декодирования для одного пакета в 3,16 раза при использовании модели GPT-2-L с 762 миллионами параметров, при этом полностью сохраняя качество выходных данных.

English

Recent advances with large language models (LLM) illustrate their diverse capabilities. We propose a novel algorithm, staged speculative decoding, to accelerate LLM inference in small-batch, on-device scenarios. We address the low arithmetic intensity of small-batch inference by improving upon previous work in speculative decoding. First, we restructure the speculative batch as a tree, which reduces generation costs and increases the expected tokens per batch. Second, we add a second stage of speculative decoding. Taken together, we reduce single-batch decoding latency by 3.16x with a 762M parameter GPT-2-L model while perfectly preserving output quality.

Ускорение вывода языковых моделей с использованием поэтапного спекулятивного декодирования

Accelerating LLM Inference with Staged Speculative Decoding

Аннотация

Support