Dimensionamento de Modelos de Linguagem de Difusão por meio de Adaptação de Modelos Autoregressivos
Scaling Diffusion Language Models via Adaptation from Autoregressive Models
October 23, 2024
Autores: Shansan Gong, Shivam Agarwal, Yizhe Zhang, Jiacheng Ye, Lin Zheng, Mukai Li, Chenxin An, Peilin Zhao, Wei Bi, Jiawei Han, Hao Peng, Lingpeng Kong
cs.AI
Resumo
Os Modelos de Linguagem por Difusão (DLMs) surgiram como um novo paradigma promissor para modelagem generativa de texto, potencialmente superando as limitações dos modelos autoregressivos (AR). No entanto, os atuais DLMs têm sido estudados em uma escala menor em comparação com seus equivalentes AR e carecem de uma comparação justa em benchmarks de modelagem de linguagem. Além disso, treinar modelos de difusão do zero em grande escala continua sendo um desafio. Dada a prevalência de modelos de linguagem AR de código aberto, propomos adaptar esses modelos para construir modelos de difusão de texto. Demonstramos conexões entre os objetivos de modelagem AR e de difusão e introduzimos uma abordagem simples de pré-treinamento contínuo para treinar modelos de difusão. Através de uma avaliação sistemática em benchmarks de modelagem de linguagem, raciocínio e senso comum, mostramos que podemos converter modelos AR variando de 127M a 7B parâmetros (GPT2 e LLaMA) em modelos de difusão DiffuGPT e DiffuLLaMA, utilizando menos de 200B tokens para treinamento. Nossos resultados experimentais revelam que esses modelos superam os DLMs anteriores e são competitivos com seus equivalentes AR. Lançamos uma série de DLMs (com 127M, 355M e 7B parâmetros) capazes de gerar texto fluente, realizar aprendizado em contexto, preencher lacunas sem reordenação de prompt e seguir instruções em https://github.com/HKUNLP/DiffuLLaMA.
English
Diffusion Language Models (DLMs) have emerged as a promising new paradigm for
text generative modeling, potentially addressing limitations of autoregressive
(AR) models. However, current DLMs have been studied at a smaller scale
compared to their AR counterparts and lack fair comparison on language modeling
benchmarks. Additionally, training diffusion models from scratch at scale
remains challenging. Given the prevalence of open-source AR language models, we
propose adapting these models to build text diffusion models. We demonstrate
connections between AR and diffusion modeling objectives and introduce a simple
continual pre-training approach for training diffusion models. Through
systematic evaluation on language modeling, reasoning, and commonsense
benchmarks, we show that we can convert AR models ranging from 127M to 7B
parameters (GPT2 and LLaMA) into diffusion models DiffuGPT and DiffuLLaMA,
using less than 200B tokens for training. Our experimental results reveal that
these models outperform earlier DLMs and are competitive with their AR
counterparts. We release a suite of DLMs (with 127M, 355M, and 7B parameters)
capable of generating fluent text, performing in-context learning, filling in
the middle without prompt re-ordering, and following instructions
https://github.com/HKUNLP/DiffuLLaMA.Summary
AI-Generated Summary