Aceleración sin pérdida de modelos de lenguaje grandes con redacción jerárquica basada en la temporalidad local en decodificación especulativa.

Resumen

Acelerar la inferencia en Modelos de Lenguaje Grandes (LLMs) es crucial para las interacciones en tiempo real, ya que se han incorporado ampliamente en servicios del mundo real. La decodificación especulativa, una solución completamente algorítmica, ha ganado atención por mejorar la velocidad de inferencia al redactar y verificar tokens, generando así múltiples tokens en un solo pase hacia adelante. Sin embargo, las estrategias actuales de redacción suelen requerir un ajuste fino significativo o tienen un rendimiento inconsistente en diferentes tareas. Para abordar estos desafíos, proponemos la Redacción Jerárquica (HD), un enfoque novedoso de redacción sin pérdidas que organiza diversas fuentes de tokens en múltiples bases de datos en un marco jerárquico basado en la localidad temporal. En el paso de redacción, HD accede secuencialmente a múltiples bases de datos para obtener tokens preliminares desde la localidad más alta hasta la más baja, garantizando una aceleración consistente en diversas tareas y minimizando la latencia de redacción. Nuestros experimentos en Spec-Bench utilizando LLMs con 7B y 13B parámetros demuestran que HD supera a los métodos de redacción de bases de datos existentes, logrando mejoras robustas en la velocidad de inferencia en diferentes tamaños de modelo, tareas y temperaturas.

English

Accelerating inference in Large Language Models (LLMs) is critical for real-time interactions, as they have been widely incorporated into real-world services. Speculative decoding, a fully algorithmic solution, has gained attention for improving inference speed by drafting and verifying tokens, thereby generating multiple tokens in a single forward pass. However, current drafting strategies usually require significant fine-tuning or have inconsistent performance across tasks. To address these challenges, we propose Hierarchy Drafting (HD), a novel lossless drafting approach that organizes various token sources into multiple databases in a hierarchical framework based on temporal locality. In the drafting step, HD sequentially accesses multiple databases to obtain draft tokens from the highest to the lowest locality, ensuring consistent acceleration across diverse tasks and minimizing drafting latency. Our experiments on Spec-Bench using LLMs with 7B and 13B parameters demonstrate that HD outperforms existing database drafting methods, achieving robust inference speedups across model sizes, tasks, and temperatures.

Aceleración sin pérdida de modelos de lenguaje grandes con redacción jerárquica basada en la temporalidad local en decodificación especulativa.

Lossless Acceleration of Large Language Models with Hierarchical Drafting based on Temporal Locality in Speculative Decoding

Resumen

Support