Мультимодельное латентное моделирование языка с диффузией следующего токена
Multimodal Latent Language Modeling with Next-Token Diffusion
December 11, 2024
Авторы: Yutao Sun, Hangbo Bao, Wenhui Wang, Zhiliang Peng, Li Dong, Shaohan Huang, Jianyong Wang, Furu Wei
cs.AI
Аннотация
Мультимодельные генеративные модели требуют единого подхода к обработке как дискретных данных (например, текста и кода), так и непрерывных данных (например, изображений, звука, видео). В данной работе мы предлагаем модель латентного языкового моделирования (LatentLM), которая плавно интегрирует непрерывные и дискретные данные с использованием причинных трансформеров. Конкретно, мы используем вариационный автокодировщик (VAE) для представления непрерывных данных в виде латентных векторов и вводим диффузию следующего токена для авторегрессивной генерации этих векторов. Кроме того, мы разрабатываем sigma-VAE для решения проблемы коллапса дисперсии, что критично для авторегрессивного моделирования. Обширные эксперименты демонстрируют эффективность LatentLM в различных модальностях. В генерации изображений LatentLM превосходит Диффузионные трансформеры как по производительности, так и по масштабируемости. При интеграции в мультимодельные большие языковые модели LatentLM предоставляет универсальный интерфейс, который объединяет мультимодальную генерацию и понимание. Экспериментальные результаты показывают, что LatentLM достигает более высокой производительности по сравнению с моделями Transfusion и векторизованными моделями при увеличении количества обучающих токенов. В синтезе текста в речь LatentLM превосходит современную модель VALL-E 2 по сходству и устойчивости к диктору, требуя в 10 раз меньше шагов декодирования. Результаты утверждают LatentLM как высокоэффективный и масштабируемый подход для продвижения крупных мультимодельных моделей.
English
Multimodal generative models require a unified approach to handle both
discrete data (e.g., text and code) and continuous data (e.g., image, audio,
video). In this work, we propose Latent Language Modeling (LatentLM), which
seamlessly integrates continuous and discrete data using causal Transformers.
Specifically, we employ a variational autoencoder (VAE) to represent continuous
data as latent vectors and introduce next-token diffusion for autoregressive
generation of these vectors. Additionally, we develop sigma-VAE to address
the challenges of variance collapse, which is crucial for autoregressive
modeling. Extensive experiments demonstrate the effectiveness of LatentLM
across various modalities. In image generation, LatentLM surpasses Diffusion
Transformers in both performance and scalability. When integrated into
multimodal large language models, LatentLM provides a general-purpose interface
that unifies multimodal generation and understanding. Experimental results show
that LatentLM achieves favorable performance compared to Transfusion and vector
quantized models in the setting of scaling up training tokens. In
text-to-speech synthesis, LatentLM outperforms the state-of-the-art VALL-E 2
model in speaker similarity and robustness, while requiring 10x fewer decoding
steps. The results establish LatentLM as a highly effective and scalable
approach to advance large multimodal models.Summary
AI-Generated Summary