Esqueleto-de-Pensamiento: Los Modelos de Lenguaje de Gran Escala Pueden Realizar Decodificación en Paralelo
Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding
July 28, 2023
Autores: Xuefei Ning, Zinan Lin, Zixuan Zhou, Huazhong Yang, Yu Wang
cs.AI
Resumen
Este trabajo tiene como objetivo reducir la latencia de generación de extremo a extremo en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Una de las principales causas de la alta latencia de generación es el enfoque de decodificación secuencial adoptado por casi todos los LLMs de vanguardia. En este trabajo, motivados por el proceso de pensamiento y escritura de los seres humanos, proponemos "Esqueleto-del-Pensamiento" (SoT, por sus siglas en inglés), que guía a los LLMs a generar primero el esqueleto de la respuesta y luego realiza llamadas API en paralelo o decodificación por lotes para completar el contenido de cada punto del esqueleto de manera paralela. SoT no solo proporciona una aceleración considerable (hasta 2.39x en 11 LLMs diferentes), sino que también puede mejorar potencialmente la calidad de las respuestas en varias categorías de preguntas en términos de diversidad y relevancia. SoT es un intento inicial de optimización centrada en datos para la eficiencia y revela el potencial de impulsar a los LLMs a pensar más como un ser humano para mejorar la calidad de las respuestas.
English
This work aims at decreasing the end-to-end generation latency of large
language models (LLMs). One of the major causes of the high generation latency
is the sequential decoding approach adopted by almost all state-of-the-art
LLMs. In this work, motivated by the thinking and writing process of humans, we
propose "Skeleton-of-Thought" (SoT), which guides LLMs to first generate the
skeleton of the answer, and then conducts parallel API calls or batched
decoding to complete the contents of each skeleton point in parallel. Not only
does SoT provide considerable speed-up (up to 2.39x across 11 different LLMs),
but it can also potentially improve the answer quality on several question
categories in terms of diversity and relevance. SoT is an initial attempt at
data-centric optimization for efficiency, and reveal the potential of pushing
LLMs to think more like a human for answer quality.