Ouroboros: Decodificación Especulativa con Generación de Borradores Mejorada por Modelos Grandes

Resumen

Los métodos de decodificación de redacción-then-verificación, como la decodificación especulativa, son ampliamente adoptados como métodos libres de entrenamiento para acelerar la inferencia de modelos de lenguaje grandes (LLMs, por sus siglas en inglés). En lugar de emplear un proceso autorregresivo para decodificar tokens secuencialmente, la decodificación especulativa inicialmente crea borradores con un modelo pequeño y eficiente. Luego, los LLMs deben realizar la verificación y corrección de manera no autorregresiva para minimizar el tiempo adicional. Generar borradores más largos puede llevar a aceleraciones aún más significativas una vez verificados, pero también incurre en costos sustanciales de prueba y error si falla. Debido a la alta probabilidad de fallo en la verificación, los métodos de decodificación existentes no pueden redactar demasiado contenido para verificación de una sola vez, logrando una aceleración de inferencia subóptima. En este artículo, presentamos Ouroboros, que construye un pool de candidatos de frases a partir del proceso de verificación de los LLMs para proporcionar candidatos para la generación de borradores del modelo pequeño. De esta manera, Ouroboros puede mejorar aún más la eficiencia y efectividad de los borradores iniciales. Los resultados experimentales en tareas típicas de generación de texto muestran que Ouroboros logra aceleraciones de hasta 1.9x y 2.8x en comparación con la decodificación anticipada y la decodificación especulativa, respectivamente. El código fuente de Ouroboros está disponible en https://github.com/thunlp/Ouroboros.

English

Drafting-then-verifying decoding methods such as speculative decoding are widely adopted training-free methods to accelerate the inference of large language models (LLMs). Instead of employing an autoregressive process to decode tokens sequentially, speculative decoding initially creates drafts with an efficient small model. Then LLMs are required to conduct verification and correction in a non-autoregressive fashion to minimize time overhead. Generating longer drafts can lead to even more significant speedups once verified, but also incurs substantial trial and error costs if it fails. Suffering from the high verification failure probability, existing decoding methods cannot draft too much content for verification at one time, achieving sub-optimal inference acceleration. In this paper, we introduce Ouroboros, which constructs a phrase candidate pool from the verification process of LLMs to provide candidates for draft generation of the small model. Thereby, Ouroboros can further improve the efficiency and effectiveness of the initial drafts. The experimental results on typical text generation tasks show that Ouroboros achieves speedups of up to 1.9x and 2.8x compared to lookahead decoding and speculative decoding, respectively. The source code of Ouroboros is available at https://github.com/thunlp/Ouroboros.

Ouroboros: Decodificación Especulativa con Generación de Borradores Mejorada por Modelos Grandes

Ouroboros: Speculative Decoding with Large Model Enhanced Drafting

Resumen

Support