Без потерь ускорение крупных языковых моделей с иерархическим черновым вариантом на основе временной локальности в спекулятивном декодировании.
Lossless Acceleration of Large Language Models with Hierarchical Drafting based on Temporal Locality in Speculative Decoding
February 8, 2025
Авторы: Sukmin Cho, Sangjin Choi, Taeho Hwang, Jeongyeon Seo, Soyeong Jeong, Huije Lee, Hoyun Song, Jong C. Park, Youngjin Kwon
cs.AI
Аннотация
Ускорение вывода в больших языковых моделях (LLM) критично для взаимодействия в реальном времени, поскольку они широко внедрены в услуги реального мира. Спекулятивное декодирование, полностью алгоритмическое решение, привлекло внимание как способ улучшения скорости вывода путем составления и проверки токенов, что позволяет генерировать несколько токенов за один проход. Однако текущие стратегии составления обычно требуют значительной настройки или имеют неустойчивую производительность в различных задачах. Для решения этих проблем мы предлагаем Иерархическое Составление (HD), новый метод составления без потерь, который организует различные источники токенов в несколько баз данных в иерархической структуре на основе временной локальности. На этапе составления HD последовательно обращается к нескольким базам данных для получения черновых токенов от наивысшей к наименьшей локальности, обеспечивая последовательное ускорение в различных задачах и минимизируя задержку составления. Наши эксперименты на Spec-Bench с использованием LLM с параметрами 7B и 13B показывают, что HD превосходит существующие методы составления баз данных, достигая надежного ускорения вывода при различных размерах моделей, задачах и температурах.
English
Accelerating inference in Large Language Models (LLMs) is critical for
real-time interactions, as they have been widely incorporated into real-world
services. Speculative decoding, a fully algorithmic solution, has gained
attention for improving inference speed by drafting and verifying tokens,
thereby generating multiple tokens in a single forward pass. However, current
drafting strategies usually require significant fine-tuning or have
inconsistent performance across tasks. To address these challenges, we propose
Hierarchy Drafting (HD), a novel lossless drafting approach that organizes
various token sources into multiple databases in a hierarchical framework based
on temporal locality. In the drafting step, HD sequentially accesses multiple
databases to obtain draft tokens from the highest to the lowest locality,
ensuring consistent acceleration across diverse tasks and minimizing drafting
latency. Our experiments on Spec-Bench using LLMs with 7B and 13B parameters
demonstrate that HD outperforms existing database drafting methods, achieving
robust inference speedups across model sizes, tasks, and temperatures.Summary
AI-Generated Summary