Ускорение вывода языковых моделей с использованием поэтапного спекулятивного декодирования
Accelerating LLM Inference with Staged Speculative Decoding
August 8, 2023
Авторы: Benjamin Spector, Chris Re
cs.AI
Аннотация
Последние достижения в области больших языковых моделей (LLM) демонстрируют их разнообразные возможности. Мы предлагаем новый алгоритм, поэтапное спекулятивное декодирование, для ускорения вывода LLM в сценариях с малыми пакетами данных на устройствах. Мы решаем проблему низкой арифметической интенсивности при выводе с малыми пакетами, улучшая предыдущие работы в области спекулятивного декодирования. Во-первых, мы реструктурируем спекулятивный пакет в виде дерева, что снижает затраты на генерацию и увеличивает ожидаемое количество токенов на пакет. Во-вторых, мы добавляем второй этап спекулятивного декодирования. В совокупности это позволяет сократить задержку декодирования для одного пакета в 3,16 раза при использовании модели GPT-2-L с 762 миллионами параметров, при этом полностью сохраняя качество выходных данных.
English
Recent advances with large language models (LLM) illustrate their diverse
capabilities. We propose a novel algorithm, staged speculative decoding, to
accelerate LLM inference in small-batch, on-device scenarios. We address the
low arithmetic intensity of small-batch inference by improving upon previous
work in speculative decoding. First, we restructure the speculative batch as a
tree, which reduces generation costs and increases the expected tokens per
batch. Second, we add a second stage of speculative decoding. Taken together,
we reduce single-batch decoding latency by 3.16x with a 762M parameter GPT-2-L
model while perfectly preserving output quality.