dLLM: Простое диффузионное языковое моделирование

Аннотация

Хотя диффузионные языковые модели (DZM) быстро развиваются, многие современные модели сходятся на использовании общего набора компонентов. Однако эти компоненты распределены по разрозненным исследовательским кодобазам или не имеют прозрачных реализаций, что затрудняет их воспроизведение и расширение. По мере ускорения развития области возникает явная потребность в унифицированной системе, которая стандартизирует эти общие компоненты, сохраняя при этом гибкость для поддержки новых методов и архитектур. Для решения этой проблемы мы представляем dLLM — фреймворк с открытым исходным кодом, который объединяет ключевые компоненты диффузионного языкового моделирования — обучение, вывод и оценку — и упрощает их адаптацию для новых разработок. С помощью dLLM пользователи могут воспроизводить, дообучать, развертывать и оценивать открытые большие DZM, такие как LLaDA и Dream, через стандартизированный конвейер. Фреймворк также предоставляет минимальные воспроизводимые рецепты для создания небольших DZM с нуля с использованием доступных вычислительных ресурсов, включая преобразование любого BERT-подобного энкодера или авторегрессионной языковой модели в DZM. Мы также публикуем чекпоинты этих небольших моделей, чтобы сделать DZM более доступными и ускорить будущие исследования.

English

Although diffusion language models (DLMs) are evolving quickly, many recent models converge on a set of shared components. These components, however, are distributed across ad-hoc research codebases or lack transparent implementations, making them difficult to reproduce or extend. As the field accelerates, there is a clear need for a unified framework that standardizes these common components while remaining flexible enough to support new methods and architectures. To address this gap, we introduce dLLM, an open-source framework that unifies the core components of diffusion language modeling -- training, inference, and evaluation -- and makes them easy to customize for new designs. With dLLM, users can reproduce, finetune, deploy, and evaluate open-source large DLMs such as LLaDA and Dream through a standardized pipeline. The framework also provides minimal, reproducible recipes for building small DLMs from scratch with accessible compute, including converting any BERT-style encoder or autoregressive LM into a DLM. We also release the checkpoints of these small DLMs to make DLMs more accessible and accelerate future research.

dLLM: Простое диффузионное языковое моделирование

dLLM: Simple Diffusion Language Modeling

Аннотация

Support