Масштабирование языковых моделей диффузии с помощью адаптации от авторегрессионных моделей.
Scaling Diffusion Language Models via Adaptation from Autoregressive Models
October 23, 2024
Авторы: Shansan Gong, Shivam Agarwal, Yizhe Zhang, Jiacheng Ye, Lin Zheng, Mukai Li, Chenxin An, Peilin Zhao, Wei Bi, Jiawei Han, Hao Peng, Lingpeng Kong
cs.AI
Аннотация
Модели диффузии языка (DLM) появились как многообещающий новый парадигма для моделирования генерации текста, потенциально решающая ограничения авторегрессионных (AR) моделей. Однако текущие DLM изучались в меньшем масштабе по сравнению с их AR аналогами и лишены справедливого сравнения на стандартных бенчмарках языкового моделирования. Кроме того, обучение моделей диффузии с нуля в масштабе остается сложной задачей. Учитывая распространенность открытых AR языковых моделей, мы предлагаем адаптировать эти модели для создания моделей диффузии текста. Мы демонстрируем связь между целями моделирования AR и диффузии и представляем простой метод последовательного предварительного обучения для обучения моделей диффузии. Через систематическую оценку на бенчмарках языкового моделирования, рассуждения и здравого смысла, мы показываем, что мы можем преобразовать AR модели от 127M до 7B параметров (GPT2 и LLaMA) в модели диффузии DiffuGPT и DiffuLLaMA, используя менее 200B токенов для обучения. Наши экспериментальные результаты показывают, что эти модели превосходят более ранние DLM и конкурентоспособны с их AR аналогами. Мы выпускаем набор DLM (с 127M, 355M и 7B параметрами), способных генерировать свободный текст, выполнять контекстное обучение, заполнять пропуски без переупорядочивания запроса и следовать инструкциям.
English
Diffusion Language Models (DLMs) have emerged as a promising new paradigm for
text generative modeling, potentially addressing limitations of autoregressive
(AR) models. However, current DLMs have been studied at a smaller scale
compared to their AR counterparts and lack fair comparison on language modeling
benchmarks. Additionally, training diffusion models from scratch at scale
remains challenging. Given the prevalence of open-source AR language models, we
propose adapting these models to build text diffusion models. We demonstrate
connections between AR and diffusion modeling objectives and introduce a simple
continual pre-training approach for training diffusion models. Through
systematic evaluation on language modeling, reasoning, and commonsense
benchmarks, we show that we can convert AR models ranging from 127M to 7B
parameters (GPT2 and LLaMA) into diffusion models DiffuGPT and DiffuLLaMA,
using less than 200B tokens for training. Our experimental results reveal that
these models outperform earlier DLMs and are competitive with their AR
counterparts. We release a suite of DLMs (with 127M, 355M, and 7B parameters)
capable of generating fluent text, performing in-context learning, filling in
the middle without prompt re-ordering, and following instructions
https://github.com/HKUNLP/DiffuLLaMA.Summary
AI-Generated Summary