Без потерь ускорение крупных языковых моделей с иерархическим черновым вариантом на основе временной локальности в спекулятивном декодировании.

Аннотация

Ускорение вывода в больших языковых моделях (LLM) критично для взаимодействия в реальном времени, поскольку они широко внедрены в услуги реального мира. Спекулятивное декодирование, полностью алгоритмическое решение, привлекло внимание как способ улучшения скорости вывода путем составления и проверки токенов, что позволяет генерировать несколько токенов за один проход. Однако текущие стратегии составления обычно требуют значительной настройки или имеют неустойчивую производительность в различных задачах. Для решения этих проблем мы предлагаем Иерархическое Составление (HD), новый метод составления без потерь, который организует различные источники токенов в несколько баз данных в иерархической структуре на основе временной локальности. На этапе составления HD последовательно обращается к нескольким базам данных для получения черновых токенов от наивысшей к наименьшей локальности, обеспечивая последовательное ускорение в различных задачах и минимизируя задержку составления. Наши эксперименты на Spec-Bench с использованием LLM с параметрами 7B и 13B показывают, что HD превосходит существующие методы составления баз данных, достигая надежного ускорения вывода при различных размерах моделей, задачах и температурах.

English

Accelerating inference in Large Language Models (LLMs) is critical for real-time interactions, as they have been widely incorporated into real-world services. Speculative decoding, a fully algorithmic solution, has gained attention for improving inference speed by drafting and verifying tokens, thereby generating multiple tokens in a single forward pass. However, current drafting strategies usually require significant fine-tuning or have inconsistent performance across tasks. To address these challenges, we propose Hierarchy Drafting (HD), a novel lossless drafting approach that organizes various token sources into multiple databases in a hierarchical framework based on temporal locality. In the drafting step, HD sequentially accesses multiple databases to obtain draft tokens from the highest to the lowest locality, ensuring consistent acceleration across diverse tasks and minimizing drafting latency. Our experiments on Spec-Bench using LLMs with 7B and 13B parameters demonstrate that HD outperforms existing database drafting methods, achieving robust inference speedups across model sizes, tasks, and temperatures.

Без потерь ускорение крупных языковых моделей с иерархическим черновым вариантом на основе временной локальности в спекулятивном декодировании.

Lossless Acceleration of Large Language Models with Hierarchical Drafting based on Temporal Locality in Speculative Decoding

Аннотация

Support