TextLDM: Языковое моделирование с непрерывной латентной диффузией

Аннотация

Диффузионные трансформеры (DiT), обученные с помощью согласования потоков в латентном пространстве VAE, позволили унифицировать визуальную генерацию как для изображений, так и для видео. Естественным следующим шагом к единой архитектуре как для генерации (визуальный синтез), так и для понимания (генерация текста) является применение этого подхода к языковому моделированию. Мы предлагаем TextLDM, который переносит рецепт визуальной латентной диффузии на генерацию текста с минимальными архитектурными изменениями. Трансформерный VAE отображает дискретные токены в непрерывные латентные представления, дополненные выравниванием представлений (REPA) с помощью замороженной предобученной языковой модели для получения представлений, эффективных для условного шумоподавления. Затем стандартный DiT выполняет согласование потоков в этом латентном пространстве, будучи идентичным по архитектуре своему визуальному аналогу. Ключевая задача, которую мы решаем, — получение высококачественных непрерывных текстовых представлений: мы обнаружили, что одной лишь точности реконструкции недостаточно, и что выравнивание латентных признаков с предобученной языковой моделью через REPA критически важно для качества последующей генерации. Обученный с нуля на OpenWebText2, TextLDM значительно превосходит предыдущие диффузионные языковые модели и сравним с GPT-2 в тех же условиях. Наши результаты показывают, что рецепт визуального DiT эффективно переносится на язык, делая конкретный шаг к унифицированным диффузионным архитектурам для мультимодальной генерации и понимания.

English

Diffusion Transformers (DiT) trained with flow matching in a VAE latent space have unified visual generation across images and videos. A natural next step toward a single architecture for both generation (visual synthesis) and understanding (text generation) is to apply this framework to language modeling. We propose TextLDM, which transfers the visual latent diffusion recipe to text generation with minimal architectural modification. A Transformer-based VAE maps discrete tokens to continuous latents, enhanced by Representation Alignment (REPA) with a frozen pretrained language model to produce representations effective for conditional denoising. A standard DiT then performs flow matching in this latent space, identical in architecture to its visual counterpart. The central challenge we address is obtaining high-quality continuous text representations: we find that reconstruction fidelity alone is insufficient, and that aligning latent features with a pretrained language model via REPA is critical for downstream generation quality. Trained from scratch on OpenWebText2, TextLDM substantially outperforms prior diffusion language models and matches GPT-2 under the same settings. Our results establish that the visual DiT recipe transfers effectively to language, taking a concrete step toward unified diffusion architectures for multimodal generation and understanding.

TextLDM: Языковое моделирование с непрерывной латентной диффузией

TextLDM: Language Modeling with Continuous Latent Diffusion

Аннотация

Support