AR-Diffusion: Modelo de Difusão Auto-Regressiva para Geração de Texto

Resumo

Os modelos de difusão têm ganhado atenção significativa no campo de geração de imagens devido ao seu desempenho excepcional. Recentemente, seu sucesso foi expandido para a geração de texto, gerando todos os tokens de uma sequência simultaneamente. No entanto, a linguagem natural exibe uma dependência sequencial muito mais pronunciada em comparação com as imagens, e a maioria dos modelos de linguagem existentes são treinados utilizando uma abordagem auto-regressiva da esquerda para a direita. Para levar em consideração a característica sequencial inerente da linguagem natural, introduzimos a Difusão Auto-Regressiva (AR-Diffusion). A AR-Diffusion garante que a geração de tokens à direita dependa dos tokens gerados à esquerda, um mecanismo alcançado através do emprego de um número dinâmico de etapas de remoção de ruído que variam com base na posição do token. Isso resulta em tokens à esquerda passando por menos etapas de remoção de ruído do que os tokens à direita, permitindo que sejam gerados mais cedo e, consequentemente, influenciem a geração dos tokens à direita. Em uma série de experimentos em várias tarefas de geração de texto, incluindo sumarização de texto, tradução automática e geração de senso comum, a AR-Diffusion demonstrou claramente a superioridade sobre os modelos de difusão de linguagem existentes e pode ser de 100 a 600 vezes mais rápida ao alcançar resultados comparáveis. Nosso código será disponibilizado publicamente.

English

Diffusion models have gained significant attention in the realm of image generation due to their exceptional performance. Their success has been recently expanded to text generation via generating all tokens within a sequence concurrently. However, natural language exhibits a far more pronounced sequential dependency in comparison to images, and the majority of existing language models are trained utilizing a left-to-right auto-regressive approach. To account for the inherent sequential characteristic of natural language, we introduce Auto-Regressive Diffusion (AR-Diffusion). AR-Diffusion ensures that the generation of tokens on the right depends on the generated ones on the left, a mechanism achieved through employing a dynamic number of denoising steps that vary based on token position. This results in tokens on the left undergoing fewer denoising steps than those on the right, thereby enabling them to generate earlier and subsequently influence the generation of tokens on the right. In a series of experiments on various text generation tasks including text summarization, machine translation, and common sense generation, AR-Diffusion clearly demonstrated the superiority over existing diffusion language models and that it can be 100timessim600times faster when achieving comparable results. Our code will be publicly released.

AR-Diffusion: Modelo de Difusão Auto-Regressiva para Geração de Texto

AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation

Resumo

Support