Блок-диффузия: Интерполяция между авторегрессивными и диффузионными языковыми моделямиBlock Diffusion: Interpolating Between Autoregressive and Diffusion
Language Models
Диффузионные языковые модели предлагают уникальные преимущества по сравнению с авторегрессивными моделями благодаря их потенциалу для параллелизованной генерации и управляемости, однако они уступают в моделировании правдоподобия и ограничены генерацией фиксированной длины. В данной работе мы представляем класс блочных диффузионных языковых моделей, которые интерполируют между дискретной диффузией с удалением шума и авторегрессивными моделями. Блочная диффузия преодолевает ключевые ограничения обоих подходов, поддерживая генерацию гибкой длины и повышая эффективность вывода за счет кэширования ключей и значений (KV) и параллельной выборки токенов. Мы предлагаем рецепт для создания эффективных блочных диффузионных моделей, включающий эффективный алгоритм обучения, оценщики дисперсии градиента и основанные на данных расписания шума для минимизации дисперсии. Блочная диффузия устанавливает новый уровень производительности среди диффузионных моделей на тестах языкового моделирования и позволяет генерировать последовательности произвольной длины. Мы предоставляем код, веса модели и блог-пост на странице проекта: https://m-arriola.com/bd3lms/