Accélération sans perte de modèles de langage volumineux avec rédaction hiérarchique basée sur la localité temporelle dans le décodage spéculatif

papers.abstract

Accélérer l'inférence dans les Grands Modèles de Langage (GML) est crucial pour les interactions en temps réel, car ils ont été largement intégrés dans des services du monde réel. Le décodage spéculatif, une solution entièrement algorithmique, a attiré l'attention pour améliorer la vitesse d'inférence en rédigeant et en vérifiant des jetons, générant ainsi plusieurs jetons en une seule passe avant. Cependant, les stratégies de rédaction actuelles nécessitent généralement un ajustement significatif ou présentent des performances incohérentes selon les tâches. Pour relever ces défis, nous proposons la Rédaction Hiérarchique (HD), une nouvelle approche de rédaction sans perte qui organise diverses sources de jetons en plusieurs bases de données dans un cadre hiérarchique basé sur la localité temporelle. Dans l'étape de rédaction, HD accède séquentiellement à plusieurs bases de données pour obtenir des jetons de brouillon de la localité la plus élevée à la plus basse, garantissant une accélération cohérente sur diverses tâches et minimisant la latence de rédaction. Nos expériences sur Spec-Bench en utilisant des GML avec 7 et 13 milliards de paramètres démontrent que HD surpasse les méthodes de rédaction de base de données existantes, réalisant des améliorations robustes de la vitesse d'inférence pour différentes tailles de modèles, tâches et températures.

English

Accelerating inference in Large Language Models (LLMs) is critical for real-time interactions, as they have been widely incorporated into real-world services. Speculative decoding, a fully algorithmic solution, has gained attention for improving inference speed by drafting and verifying tokens, thereby generating multiple tokens in a single forward pass. However, current drafting strategies usually require significant fine-tuning or have inconsistent performance across tasks. To address these challenges, we propose Hierarchy Drafting (HD), a novel lossless drafting approach that organizes various token sources into multiple databases in a hierarchical framework based on temporal locality. In the drafting step, HD sequentially accesses multiple databases to obtain draft tokens from the highest to the lowest locality, ensuring consistent acceleration across diverse tasks and minimizing drafting latency. Our experiments on Spec-Bench using LLMs with 7B and 13B parameters demonstrate that HD outperforms existing database drafting methods, achieving robust inference speedups across model sizes, tasks, and temperatures.

Accélération sans perte de modèles de langage volumineux avec rédaction hiérarchique basée sur la localité temporelle dans le décodage spéculatif

Lossless Acceleration of Large Language Models with Hierarchical Drafting based on Temporal Locality in Speculative Decoding

papers.abstract

Support