Multimodales latentes Sprachmodellieren mit Next-Token-Diffusion
Multimodal Latent Language Modeling with Next-Token Diffusion
December 11, 2024
Autoren: Yutao Sun, Hangbo Bao, Wenhui Wang, Zhiliang Peng, Li Dong, Shaohan Huang, Jianyong Wang, Furu Wei
cs.AI
Zusammenfassung
Multimodale generative Modelle erfordern einen einheitlichen Ansatz, um sowohl diskrete Daten (z. B. Text und Code) als auch kontinuierliche Daten (z. B. Bild, Audio, Video) zu verarbeiten. In dieser Arbeit schlagen wir Latent Language Modeling (LatentLM) vor, das kontinuierliche und diskrete Daten nahtlos mithilfe kausaler Transformer integriert. Konkret verwenden wir einen Variationalen Autoencoder (VAE), um kontinuierliche Daten als latente Vektoren darzustellen, und führen eine Next-Token-Diffusion für die autoregressive Generierung dieser Vektoren ein. Darüber hinaus entwickeln wir Sigma-VAE, um den Herausforderungen des Varianzkollapses zu begegnen, was für die autoregressive Modellierung entscheidend ist. Umfangreiche Experimente zeigen die Wirksamkeit von LatentLM über verschiedene Modalitäten hinweg. Bei der Bildgenerierung übertrifft LatentLM sowohl in Leistung als auch Skalierbarkeit die Diffusion Transformers. Wenn es in multimodale große Sprachmodelle integriert wird, bietet LatentLM eine universelle Schnittstelle, die multimodale Generierung und Verständnis vereint. Experimentelle Ergebnisse zeigen, dass LatentLM im Vergleich zu Transfusion und vektorquantisierten Modellen bei der Skalierung des Trainings mit Token eine günstige Leistung erzielt. Bei der Text-zu-Sprache-Synthese übertrifft LatentLM das State-of-the-Art-Modell VALL-E 2 in Sprecherähnlichkeit und Robustheit und erfordert dabei 10-mal weniger Decodierungsschritte. Die Ergebnisse etablieren LatentLM als einen äußerst effektiven und skalierbaren Ansatz zur Weiterentwicklung großer multimodaler Modelle.
English
Multimodal generative models require a unified approach to handle both
discrete data (e.g., text and code) and continuous data (e.g., image, audio,
video). In this work, we propose Latent Language Modeling (LatentLM), which
seamlessly integrates continuous and discrete data using causal Transformers.
Specifically, we employ a variational autoencoder (VAE) to represent continuous
data as latent vectors and introduce next-token diffusion for autoregressive
generation of these vectors. Additionally, we develop sigma-VAE to address
the challenges of variance collapse, which is crucial for autoregressive
modeling. Extensive experiments demonstrate the effectiveness of LatentLM
across various modalities. In image generation, LatentLM surpasses Diffusion
Transformers in both performance and scalability. When integrated into
multimodal large language models, LatentLM provides a general-purpose interface
that unifies multimodal generation and understanding. Experimental results show
that LatentLM achieves favorable performance compared to Transfusion and vector
quantized models in the setting of scaling up training tokens. In
text-to-speech synthesis, LatentLM outperforms the state-of-the-art VALL-E 2
model in speaker similarity and robustness, while requiring 10x fewer decoding
steps. The results establish LatentLM as a highly effective and scalable
approach to advance large multimodal models.Summary
AI-Generated Summary