ChatPaper.aiChatPaper

Multimodale Latente Taalmodellering met Volgende-Token Diffusie

Multimodal Latent Language Modeling with Next-Token Diffusion

December 11, 2024
Auteurs: Yutao Sun, Hangbo Bao, Wenhui Wang, Zhiliang Peng, Li Dong, Shaohan Huang, Jianyong Wang, Furu Wei
cs.AI

Samenvatting

Multimodale generatieve modellen vereisen een geünificeerde aanpak om zowel discrete gegevens (bijv. tekst en code) als continue gegevens (bijv. afbeeldingen, audio, video) te verwerken. In dit werk stellen we Latente Taalmodellering (LatentLM) voor, die naadloos continue en discrete gegevens integreert met behulp van causale Transformers. Specifiek maken we gebruik van een variational autoencoder (VAE) om continue gegevens voor te stellen als latente vectoren en introduceren we next-token diffusie voor autoregressieve generatie van deze vectoren. Daarnaast ontwikkelen we sigma-VAE om de uitdagingen van variantie-instorting aan te pakken, wat cruciaal is voor autoregressieve modellering. Uitgebreide experimenten tonen de effectiviteit van LatentLM aan over verschillende modaliteiten. Bij beeldgeneratie overtreft LatentLM zowel Diffusion Transformers in prestaties als schaalbaarheid. Wanneer geïntegreerd in multimodale grote taalmodellen, biedt LatentLM een algemene interface die multimodale generatie en begrip verenigt. Experimentele resultaten tonen aan dat LatentLM gunstige prestaties behaalt in vergelijking met Transfusion en vectorgekwantiseerde modellen bij het opschalen van trainings-tokens. Bij tekst-naar-spraak synthese presteert LatentLM beter dan het state-of-the-art VALL-E 2 model op het gebied van sprekersgelijkenis en robuustheid, terwijl het 10x minder decodeerstappen vereist. De resultaten vestigen LatentLM als een zeer effectieve en schaalbare benadering om grote multimodale modellen te bevorderen.
English
Multimodal generative models require a unified approach to handle both discrete data (e.g., text and code) and continuous data (e.g., image, audio, video). In this work, we propose Latent Language Modeling (LatentLM), which seamlessly integrates continuous and discrete data using causal Transformers. Specifically, we employ a variational autoencoder (VAE) to represent continuous data as latent vectors and introduce next-token diffusion for autoregressive generation of these vectors. Additionally, we develop sigma-VAE to address the challenges of variance collapse, which is crucial for autoregressive modeling. Extensive experiments demonstrate the effectiveness of LatentLM across various modalities. In image generation, LatentLM surpasses Diffusion Transformers in both performance and scalability. When integrated into multimodal large language models, LatentLM provides a general-purpose interface that unifies multimodal generation and understanding. Experimental results show that LatentLM achieves favorable performance compared to Transfusion and vector quantized models in the setting of scaling up training tokens. In text-to-speech synthesis, LatentLM outperforms the state-of-the-art VALL-E 2 model in speaker similarity and robustness, while requiring 10x fewer decoding steps. The results establish LatentLM as a highly effective and scalable approach to advance large multimodal models.
PDF482December 13, 2024