ChatPaper.aiChatPaper

Scaling dei modelli di linguaggio a diffusione tramite adattamento da modelli autoregressivi

Scaling Diffusion Language Models via Adaptation from Autoregressive Models

October 23, 2024
Autori: Shansan Gong, Shivam Agarwal, Yizhe Zhang, Jiacheng Ye, Lin Zheng, Mukai Li, Chenxin An, Peilin Zhao, Wei Bi, Jiawei Han, Hao Peng, Lingpeng Kong
cs.AI

Abstract

I Modelli di Diffusione del Linguaggio (DLMs) sono emersi come un nuovo paradigma promettente per la modellazione generativa di testo, potenzialmente risolvendo le limitazioni dei modelli autoregressivi (AR). Tuttavia, attualmente i DLMs sono stati studiati su una scala più piccola rispetto ai loro corrispettivi AR e mancano di un confronto equo su benchmark di modellazione del linguaggio. Inoltre, addestrare modelli di diffusione da zero su larga scala rimane una sfida. Date la diffusione diffusa dei modelli di linguaggio AR open-source, proponiamo di adattare questi modelli per costruire modelli di diffusione del testo. Dimostriamo le connessioni tra gli obiettivi di modellazione AR e di diffusione e introduciamo un semplice approccio di pre-addestramento continuo per addestrare modelli di diffusione. Attraverso una valutazione sistematica su benchmark di modellazione del linguaggio, ragionamento e buon senso, mostriamo che possiamo convertire modelli AR che vanno da 127M a 7B parametri (GPT2 e LLaMA) in modelli di diffusione DiffuGPT e DiffuLLaMA, utilizzando meno di 200B token per l'addestramento. I nostri risultati sperimentali rivelano che questi modelli superano i precedenti DLMs e sono competitivi con i loro corrispettivi AR. Rilasciamo una serie di DLMs (con 127M, 355M e 7B parametri) capaci di generare testo fluido, eseguire apprendimento in contesto, completare il testo senza riordinamento della richiesta e seguire istruzioni su https://github.com/HKUNLP/DiffuLLaMA.
English
Diffusion Language Models (DLMs) have emerged as a promising new paradigm for text generative modeling, potentially addressing limitations of autoregressive (AR) models. However, current DLMs have been studied at a smaller scale compared to their AR counterparts and lack fair comparison on language modeling benchmarks. Additionally, training diffusion models from scratch at scale remains challenging. Given the prevalence of open-source AR language models, we propose adapting these models to build text diffusion models. We demonstrate connections between AR and diffusion modeling objectives and introduce a simple continual pre-training approach for training diffusion models. Through systematic evaluation on language modeling, reasoning, and commonsense benchmarks, we show that we can convert AR models ranging from 127M to 7B parameters (GPT2 and LLaMA) into diffusion models DiffuGPT and DiffuLLaMA, using less than 200B tokens for training. Our experimental results reveal that these models outperform earlier DLMs and are competitive with their AR counterparts. We release a suite of DLMs (with 127M, 355M, and 7B parameters) capable of generating fluent text, performing in-context learning, filling in the middle without prompt re-ordering, and following instructions https://github.com/HKUNLP/DiffuLLaMA.

Summary

AI-Generated Summary

PDF162November 16, 2024