Escalando Modelos de Lenguaje de Difusión mediante Adaptación de Modelos Autoregresivos
Scaling Diffusion Language Models via Adaptation from Autoregressive Models
October 23, 2024
Autores: Shansan Gong, Shivam Agarwal, Yizhe Zhang, Jiacheng Ye, Lin Zheng, Mukai Li, Chenxin An, Peilin Zhao, Wei Bi, Jiawei Han, Hao Peng, Lingpeng Kong
cs.AI
Resumen
Los Modelos de Lenguaje de Difusión (DLMs) han surgido como un nuevo paradigma prometedor para la modelización generativa de texto, potencialmente abordando las limitaciones de los modelos autoregresivos (AR). Sin embargo, los DLMs actuales han sido estudiados en una escala más pequeña en comparación con sus contrapartes AR y carecen de una comparación justa en los puntos de referencia de modelado de lenguaje. Además, el entrenamiento de modelos de difusión desde cero a gran escala sigue siendo un desafío. Dada la prevalencia de los modelos de lenguaje AR de código abierto, proponemos adaptar estos modelos para construir modelos de difusión de texto. Demostramos conexiones entre los objetivos de modelado AR y de difusión e introducimos un enfoque simple de pre-entrenamiento continuo para entrenar modelos de difusión. A través de una evaluación sistemática en puntos de referencia de modelado de lenguaje, razonamiento y sentido común, mostramos que podemos convertir modelos AR que van desde 127M hasta 7B parámetros (GPT2 y LLaMA) en modelos de difusión DiffuGPT y DiffuLLaMA, utilizando menos de 200B tokens para el entrenamiento. Nuestros resultados experimentales revelan que estos modelos superan a los DLMs anteriores y son competitivos con sus contrapartes AR. Publicamos una serie de DLMs (con 127M, 355M y 7B parámetros) capaces de generar texto fluido, realizar aprendizaje en contexto, completar el texto sin reordenar la indicación y seguir instrucciones en https://github.com/HKUNLP/DiffuLLaMA.
English
Diffusion Language Models (DLMs) have emerged as a promising new paradigm for
text generative modeling, potentially addressing limitations of autoregressive
(AR) models. However, current DLMs have been studied at a smaller scale
compared to their AR counterparts and lack fair comparison on language modeling
benchmarks. Additionally, training diffusion models from scratch at scale
remains challenging. Given the prevalence of open-source AR language models, we
propose adapting these models to build text diffusion models. We demonstrate
connections between AR and diffusion modeling objectives and introduce a simple
continual pre-training approach for training diffusion models. Through
systematic evaluation on language modeling, reasoning, and commonsense
benchmarks, we show that we can convert AR models ranging from 127M to 7B
parameters (GPT2 and LLaMA) into diffusion models DiffuGPT and DiffuLLaMA,
using less than 200B tokens for training. Our experimental results reveal that
these models outperform earlier DLMs and are competitive with their AR
counterparts. We release a suite of DLMs (with 127M, 355M, and 7B parameters)
capable of generating fluent text, performing in-context learning, filling in
the middle without prompt re-ordering, and following instructions
https://github.com/HKUNLP/DiffuLLaMA.Summary
AI-Generated Summary