Accelerazione senza perdita di modelli linguistici di grandi dimensioni con Bozze Gerarchiche basate sulla Località Temporale nella Decodifica Speculativa
Lossless Acceleration of Large Language Models with Hierarchical Drafting based on Temporal Locality in Speculative Decoding
February 8, 2025
Autori: Sukmin Cho, Sangjin Choi, Taeho Hwang, Jeongyeon Seo, Soyeong Jeong, Huije Lee, Hoyun Song, Jong C. Park, Youngjin Kwon
cs.AI
Abstract
L'accelerazione dell'inferenza nei Large Language Models (LLM) è fondamentale per le interazioni in tempo reale, poiché sono stati ampiamente integrati nei servizi del mondo reale. Il decoding speculativo, una soluzione completamente algoritmica, ha attirato l'attenzione per migliorare la velocità di inferenza elaborando e verificando i token, generando così più token in un singolo passaggio in avanti. Tuttavia, le attuali strategie di elaborazione di solito richiedono un'importante ottimizzazione o hanno prestazioni non uniformi tra compiti diversi. Per affrontare queste sfide, proponiamo Hierarchy Drafting (HD), un nuovo approccio di elaborazione senza perdita che organizza varie fonti di token in più database in un framework gerarchico basato sulla località temporale. Nella fase di elaborazione, HD accede sequenzialmente a più database per ottenere token di bozza dalla località più alta a quella più bassa, garantendo un'accelerazione coerente tra compiti diversi e riducendo al minimo la latenza di elaborazione. I nostri esperimenti su Spec-Bench utilizzando LLM con 7B e 13B parametri dimostrano che HD supera i metodi esistenti di elaborazione del database, ottenendo miglioramenti robusti nella velocità di inferenza tra dimensioni del modello, compiti e temperature.
English
Accelerating inference in Large Language Models (LLMs) is critical for
real-time interactions, as they have been widely incorporated into real-world
services. Speculative decoding, a fully algorithmic solution, has gained
attention for improving inference speed by drafting and verifying tokens,
thereby generating multiple tokens in a single forward pass. However, current
drafting strategies usually require significant fine-tuning or have
inconsistent performance across tasks. To address these challenges, we propose
Hierarchy Drafting (HD), a novel lossless drafting approach that organizes
various token sources into multiple databases in a hierarchical framework based
on temporal locality. In the drafting step, HD sequentially accesses multiple
databases to obtain draft tokens from the highest to the lowest locality,
ensuring consistent acceleration across diverse tasks and minimizing drafting
latency. Our experiments on Spec-Bench using LLMs with 7B and 13B parameters
demonstrate that HD outperforms existing database drafting methods, achieving
robust inference speedups across model sizes, tasks, and temperatures.Summary
AI-Generated Summary