AR-Difusión: Modelo de Difusión Auto-Regresivo para Generación de Texto
AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation
May 16, 2023
Autores: Tong Wu, Zhihao Fan, Xiao Liu, Yeyun Gong, Yelong Shen, Jian Jiao, Hai-Tao Zheng, Juntao Li, Zhongyu Wei, Jian Guo, Nan Duan, Weizhu Chen
cs.AI
Resumen
Los modelos de difusión han ganado una atención significativa en el ámbito de la generación de imágenes debido a su rendimiento excepcional. Recientemente, su éxito se ha extendido a la generación de texto mediante la generación simultánea de todos los tokens dentro de una secuencia. Sin embargo, el lenguaje natural exhibe una dependencia secuencial mucho más pronunciada en comparación con las imágenes, y la mayoría de los modelos de lenguaje existentes se entrenan utilizando un enfoque auto-regresivo de izquierda a derecha. Para tener en cuenta la característica secuencial inherente del lenguaje natural, presentamos Auto-Regressive Diffusion (AR-Diffusion). AR-Diffusion asegura que la generación de tokens en la derecha dependa de los generados en la izquierda, un mecanismo logrado mediante el uso de un número dinámico de pasos de eliminación de ruido que varían según la posición del token. Esto resulta en que los tokens de la izquierda experimenten menos pasos de eliminación de ruido que los de la derecha, permitiéndoles generarse antes y, posteriormente, influir en la generación de los tokens de la derecha. En una serie de experimentos sobre diversas tareas de generación de texto, incluyendo resumen de texto, traducción automática y generación de sentido común, AR-Diffusion demostró claramente su superioridad sobre los modelos de lenguaje de difusión existentes y que puede ser entre 100 y 600 veces más rápido al lograr resultados comparables. Nuestro código será publicado públicamente.
English
Diffusion models have gained significant attention in the realm of image
generation due to their exceptional performance. Their success has been
recently expanded to text generation via generating all tokens within a
sequence concurrently. However, natural language exhibits a far more pronounced
sequential dependency in comparison to images, and the majority of existing
language models are trained utilizing a left-to-right auto-regressive approach.
To account for the inherent sequential characteristic of natural language, we
introduce Auto-Regressive Diffusion (AR-Diffusion). AR-Diffusion ensures that
the generation of tokens on the right depends on the generated ones on the
left, a mechanism achieved through employing a dynamic number of denoising
steps that vary based on token position. This results in tokens on the left
undergoing fewer denoising steps than those on the right, thereby enabling them
to generate earlier and subsequently influence the generation of tokens on the
right. In a series of experiments on various text generation tasks including
text summarization, machine translation, and common sense generation,
AR-Diffusion clearly demonstrated the superiority over existing diffusion
language models and that it can be 100timessim600times faster when
achieving comparable results. Our code will be publicly released.