Dimensionamento de Modelos de Linguagem de Difusão por meio de Adaptação de Modelos Autoregressivos

Resumo

Os Modelos de Linguagem por Difusão (DLMs) surgiram como um novo paradigma promissor para modelagem generativa de texto, potencialmente superando as limitações dos modelos autoregressivos (AR). No entanto, os atuais DLMs têm sido estudados em uma escala menor em comparação com seus equivalentes AR e carecem de uma comparação justa em benchmarks de modelagem de linguagem. Além disso, treinar modelos de difusão do zero em grande escala continua sendo um desafio. Dada a prevalência de modelos de linguagem AR de código aberto, propomos adaptar esses modelos para construir modelos de difusão de texto. Demonstramos conexões entre os objetivos de modelagem AR e de difusão e introduzimos uma abordagem simples de pré-treinamento contínuo para treinar modelos de difusão. Através de uma avaliação sistemática em benchmarks de modelagem de linguagem, raciocínio e senso comum, mostramos que podemos converter modelos AR variando de 127M a 7B parâmetros (GPT2 e LLaMA) em modelos de difusão DiffuGPT e DiffuLLaMA, utilizando menos de 200B tokens para treinamento. Nossos resultados experimentais revelam que esses modelos superam os DLMs anteriores e são competitivos com seus equivalentes AR. Lançamos uma série de DLMs (com 127M, 355M e 7B parâmetros) capazes de gerar texto fluente, realizar aprendizado em contexto, preencher lacunas sem reordenação de prompt e seguir instruções em https://github.com/HKUNLP/DiffuLLaMA.

English

Diffusion Language Models (DLMs) have emerged as a promising new paradigm for text generative modeling, potentially addressing limitations of autoregressive (AR) models. However, current DLMs have been studied at a smaller scale compared to their AR counterparts and lack fair comparison on language modeling benchmarks. Additionally, training diffusion models from scratch at scale remains challenging. Given the prevalence of open-source AR language models, we propose adapting these models to build text diffusion models. We demonstrate connections between AR and diffusion modeling objectives and introduce a simple continual pre-training approach for training diffusion models. Through systematic evaluation on language modeling, reasoning, and commonsense benchmarks, we show that we can convert AR models ranging from 127M to 7B parameters (GPT2 and LLaMA) into diffusion models DiffuGPT and DiffuLLaMA, using less than 200B tokens for training. Our experimental results reveal that these models outperform earlier DLMs and are competitive with their AR counterparts. We release a suite of DLMs (with 127M, 355M, and 7B parameters) capable of generating fluent text, performing in-context learning, filling in the middle without prompt re-ordering, and following instructions https://github.com/HKUNLP/DiffuLLaMA.

Dimensionamento de Modelos de Linguagem de Difusão por meio de Adaptação de Modelos Autoregressivos

Scaling Diffusion Language Models via Adaptation from Autoregressive Models

Resumo

Support