Aceleración sin pérdida de modelos de lenguaje grandes con redacción jerárquica basada en la temporalidad local en decodificación especulativa.
Lossless Acceleration of Large Language Models with Hierarchical Drafting based on Temporal Locality in Speculative Decoding
February 8, 2025
Autores: Sukmin Cho, Sangjin Choi, Taeho Hwang, Jeongyeon Seo, Soyeong Jeong, Huije Lee, Hoyun Song, Jong C. Park, Youngjin Kwon
cs.AI
Resumen
Acelerar la inferencia en Modelos de Lenguaje Grandes (LLMs) es crucial para las interacciones en tiempo real, ya que se han incorporado ampliamente en servicios del mundo real. La decodificación especulativa, una solución completamente algorítmica, ha ganado atención por mejorar la velocidad de inferencia al redactar y verificar tokens, generando así múltiples tokens en un solo pase hacia adelante. Sin embargo, las estrategias actuales de redacción suelen requerir un ajuste fino significativo o tienen un rendimiento inconsistente en diferentes tareas. Para abordar estos desafíos, proponemos la Redacción Jerárquica (HD), un enfoque novedoso de redacción sin pérdidas que organiza diversas fuentes de tokens en múltiples bases de datos en un marco jerárquico basado en la localidad temporal. En el paso de redacción, HD accede secuencialmente a múltiples bases de datos para obtener tokens preliminares desde la localidad más alta hasta la más baja, garantizando una aceleración consistente en diversas tareas y minimizando la latencia de redacción. Nuestros experimentos en Spec-Bench utilizando LLMs con 7B y 13B parámetros demuestran que HD supera a los métodos de redacción de bases de datos existentes, logrando mejoras robustas en la velocidad de inferencia en diferentes tamaños de modelo, tareas y temperaturas.
English
Accelerating inference in Large Language Models (LLMs) is critical for
real-time interactions, as they have been widely incorporated into real-world
services. Speculative decoding, a fully algorithmic solution, has gained
attention for improving inference speed by drafting and verifying tokens,
thereby generating multiple tokens in a single forward pass. However, current
drafting strategies usually require significant fine-tuning or have
inconsistent performance across tasks. To address these challenges, we propose
Hierarchy Drafting (HD), a novel lossless drafting approach that organizes
various token sources into multiple databases in a hierarchical framework based
on temporal locality. In the drafting step, HD sequentially accesses multiple
databases to obtain draft tokens from the highest to the lowest locality,
ensuring consistent acceleration across diverse tasks and minimizing drafting
latency. Our experiments on Spec-Bench using LLMs with 7B and 13B parameters
demonstrate that HD outperforms existing database drafting methods, achieving
robust inference speedups across model sizes, tasks, and temperatures.Summary
AI-Generated Summary