ChatPaper.aiChatPaper

Непрерывная латентная диффузионная языковая модель

Continuous Latent Diffusion Language Model

May 7, 2026
Авторы: Hongcan Guo, Qinyu Zhao, Yian Zhao, Shen Nie, Rui Zhu, Qiushan Guo, Feng Wang, Tao Yang, Hengshuang Zhao, Guoqiang Wei, Yan Zeng
cs.AI

Аннотация

Крупные языковые модели достигли значительных успехов в рамках авторегрессионной парадигмы, однако генерация высококачественных текстов не обязательно должна быть привязана к строгому порядку слева направо. Существующие альтернативные подходы по-прежнему испытывают трудности с одновременным достижением эффективности генерации, масштабируемого обучения представлений и действенного моделирования глобальной семантики. Мы предлагаем Cola DLM — иерархическую латентную диффузионную языковую модель, которая структурирует генерацию текста через иерархическое разложение информации. Cola DLM сначала изучает стабильное отображение «текст-латент» с помощью Text VAE, затем моделирует глобальную семантическую априорную модель в непрерывном латентном пространстве с помощью блочно-каузального DiT и, наконец, генерирует текст посредством условного декодирования. С единой марковской перспективы её диффузионный процесс осуществляет перенос латентной априорной модели, а не восстановление токенных наблюдений, тем самым разделяя глобальную семантическую организацию и локальную текстовую реализацию. Такая конструкция порождает более гибкое неавторегрессионное индуктивное смещение, поддерживает семантическое сжатие и подгонку априорной модели в непрерывном пространстве и естественным образом расширяется на другие непрерывные модальности. В экспериментах, охватывающих 4 исследовательских вопроса, 8 бенчмарков, строго сопоставимые авторегрессионные базовые линии и базовые линии LLaDA с ~2 млрд параметров, а также кривые масштабирования до ~2000 EFLOPs, мы определили эффективную общую конфигурацию Cola DLM и подтвердили её выраженное масштабируемое поведение для генерации текста. В совокупности результаты утверждают иерархическое моделирование непрерывной латентной априорной модели как принципиальную альтернативу строго токен-уровневому языковому моделированию, где качество генерации и характер масштабирования могут лучше отражать способности модели, чем правдоподобие, а также указывают на конкретный путь к унифицированному моделированию дискретного текста и непрерывных модальностей.
English
Large language models have achieved remarkable success under the autoregressive paradigm, yet high-quality text generation need not be tied to a fixed left-to-right order. Existing alternatives still struggle to jointly achieve generation efficiency, scalable representation learning, and effective global semantic modeling. We propose Cola DLM, a hierarchical latent diffusion language model that frames text generation through hierarchical information decomposition. Cola DLM first learns a stable text-to-latent mapping with a Text VAE, then models a global semantic prior in continuous latent space with a block-causal DiT, and finally generates text through conditional decoding. From a unified Markov-path perspective, its diffusion process performs latent prior transport rather than token-level observation recovery, thereby separating global semantic organization from local textual realization. This design yields a more flexible non-autoregressive inductive bias, supports semantic compression and prior fitting in continuous space, and naturally extends to other continuous modalities. Through experiments spanning 4 research questions, 8 benchmarks, strictly matched ~2B-parameter autoregressive and LLaDA baselines, and scaling curves up to about 2000 EFLOPs, we identify an effective overall configuration of Cola DLM and verify its strong scaling behavior for text generation. Taken together, the results establish hierarchical continuous latent prior modeling as a principled alternative to strictly token-level language modeling, where generation quality and scaling behavior may better reflect model capability than likelihood, while also suggesting a concrete path toward unified modeling across discrete text and continuous modalities.
PDF434May 9, 2026