Accélération sans perte de modèles de langage volumineux avec rédaction hiérarchique basée sur la localité temporelle dans le décodage spéculatif
Lossless Acceleration of Large Language Models with Hierarchical Drafting based on Temporal Locality in Speculative Decoding
February 8, 2025
Auteurs: Sukmin Cho, Sangjin Choi, Taeho Hwang, Jeongyeon Seo, Soyeong Jeong, Huije Lee, Hoyun Song, Jong C. Park, Youngjin Kwon
cs.AI
Résumé
Accélérer l'inférence dans les Grands Modèles de Langage (GML) est crucial pour les interactions en temps réel, car ils ont été largement intégrés dans des services du monde réel. Le décodage spéculatif, une solution entièrement algorithmique, a attiré l'attention pour améliorer la vitesse d'inférence en rédigeant et en vérifiant des jetons, générant ainsi plusieurs jetons en une seule passe avant. Cependant, les stratégies de rédaction actuelles nécessitent généralement un ajustement significatif ou présentent des performances incohérentes selon les tâches. Pour relever ces défis, nous proposons la Rédaction Hiérarchique (HD), une nouvelle approche de rédaction sans perte qui organise diverses sources de jetons en plusieurs bases de données dans un cadre hiérarchique basé sur la localité temporelle. Dans l'étape de rédaction, HD accède séquentiellement à plusieurs bases de données pour obtenir des jetons de brouillon de la localité la plus élevée à la plus basse, garantissant une accélération cohérente sur diverses tâches et minimisant la latence de rédaction. Nos expériences sur Spec-Bench en utilisant des GML avec 7 et 13 milliards de paramètres démontrent que HD surpasse les méthodes de rédaction de base de données existantes, réalisant des améliorations robustes de la vitesse d'inférence pour différentes tailles de modèles, tâches et températures.
English
Accelerating inference in Large Language Models (LLMs) is critical for
real-time interactions, as they have been widely incorporated into real-world
services. Speculative decoding, a fully algorithmic solution, has gained
attention for improving inference speed by drafting and verifying tokens,
thereby generating multiple tokens in a single forward pass. However, current
drafting strategies usually require significant fine-tuning or have
inconsistent performance across tasks. To address these challenges, we propose
Hierarchy Drafting (HD), a novel lossless drafting approach that organizes
various token sources into multiple databases in a hierarchical framework based
on temporal locality. In the drafting step, HD sequentially accesses multiple
databases to obtain draft tokens from the highest to the lowest locality,
ensuring consistent acceleration across diverse tasks and minimizing drafting
latency. Our experiments on Spec-Bench using LLMs with 7B and 13B parameters
demonstrate that HD outperforms existing database drafting methods, achieving
robust inference speedups across model sizes, tasks, and temperatures.Summary
AI-Generated Summary