ChatPaper.aiChatPaper

Modélisation de langage latente multimodale avec diffusion du token suivant

Multimodal Latent Language Modeling with Next-Token Diffusion

December 11, 2024
Auteurs: Yutao Sun, Hangbo Bao, Wenhui Wang, Zhiliang Peng, Li Dong, Shaohan Huang, Jianyong Wang, Furu Wei
cs.AI

Résumé

Les modèles génératifs multimodaux nécessitent une approche unifiée pour traiter à la fois les données discrètes (par exemple, texte et code) et les données continues (par exemple, image, audio, vidéo). Dans ce travail, nous proposons le Modèle de Langage Latent (LatentLM), qui intègre de manière transparente les données continues et discrètes en utilisant des Transformateurs causaux. Plus précisément, nous utilisons un autoencodeur variationnel (VAE) pour représenter les données continues sous forme de vecteurs latents et introduisons la diffusion du jeton suivant pour la génération autorégressive de ces vecteurs. De plus, nous développons le sigma-VAE pour relever les défis de l'effondrement de la variance, ce qui est crucial pour la modélisation autorégressive. Des expériences approfondies démontrent l'efficacité de LatentLM à travers diverses modalités. Dans la génération d'images, LatentLM dépasse les Transformateurs de Diffusion à la fois en performance et en extensibilité. Lorsqu'il est intégré dans de grands modèles de langage multimodaux, LatentLM fournit une interface polyvalente qui unifie la génération et la compréhension multimodales. Les résultats expérimentaux montrent que LatentLM atteint des performances favorables par rapport à Transfusion et aux modèles quantifiés par vecteurs dans le cadre de l'augmentation des jetons d'entraînement. Dans la synthèse texte-parole, LatentLM surpasse le modèle VALL-E 2 de pointe en similitude et en robustesse des locuteurs, tout en nécessitant 10 fois moins d'étapes de décodage. Les résultats établissent LatentLM comme une approche hautement efficace et évolutive pour faire progresser les grands modèles multimodaux.
English
Multimodal generative models require a unified approach to handle both discrete data (e.g., text and code) and continuous data (e.g., image, audio, video). In this work, we propose Latent Language Modeling (LatentLM), which seamlessly integrates continuous and discrete data using causal Transformers. Specifically, we employ a variational autoencoder (VAE) to represent continuous data as latent vectors and introduce next-token diffusion for autoregressive generation of these vectors. Additionally, we develop sigma-VAE to address the challenges of variance collapse, which is crucial for autoregressive modeling. Extensive experiments demonstrate the effectiveness of LatentLM across various modalities. In image generation, LatentLM surpasses Diffusion Transformers in both performance and scalability. When integrated into multimodal large language models, LatentLM provides a general-purpose interface that unifies multimodal generation and understanding. Experimental results show that LatentLM achieves favorable performance compared to Transfusion and vector quantized models in the setting of scaling up training tokens. In text-to-speech synthesis, LatentLM outperforms the state-of-the-art VALL-E 2 model in speaker similarity and robustness, while requiring 10x fewer decoding steps. The results establish LatentLM as a highly effective and scalable approach to advance large multimodal models.

Summary

AI-Generated Summary

PDF452December 13, 2024