Modelado de Lenguaje Latente Multimodal con Difusión del Próximo Token.
Multimodal Latent Language Modeling with Next-Token Diffusion
December 11, 2024
Autores: Yutao Sun, Hangbo Bao, Wenhui Wang, Zhiliang Peng, Li Dong, Shaohan Huang, Jianyong Wang, Furu Wei
cs.AI
Resumen
Los modelos generativos multimodales requieren un enfoque unificado para manejar tanto datos discretos (por ejemplo, texto y código) como datos continuos (por ejemplo, imagen, audio, video). En este trabajo, proponemos Modelado de Lenguaje Latente (LatentLM), que integra de manera fluida datos continuos y discretos utilizando Transformadores causales. Específicamente, empleamos un autoencoder variacional (VAE) para representar datos continuos como vectores latentes e introducimos difusión de siguiente token para la generación autoregresiva de estos vectores. Además, desarrollamos sigma-VAE para abordar los desafíos de colapso de varianza, lo cual es crucial para la modelización autoregresiva. Experimentos extensos demuestran la efectividad de LatentLM en diversas modalidades. En generación de imágenes, LatentLM supera a los Transformadores de Difusión tanto en rendimiento como en escalabilidad. Cuando se integra en modelos de lenguaje grandes multimodales, LatentLM proporciona una interfaz de propósito general que unifica la generación y comprensión multimodal. Los resultados experimentales muestran que LatentLM logra un rendimiento favorable en comparación con Transfusion y modelos cuantificados por vectores en el contexto de aumentar los tokens de entrenamiento. En síntesis de texto a voz, LatentLM supera al modelo VALL-E 2 de vanguardia en similitud y robustez del hablante, al tiempo que requiere 10 veces menos pasos de decodificación. Los resultados establecen a LatentLM como un enfoque altamente efectivo y escalable para avanzar en modelos multimodales grandes.
English
Multimodal generative models require a unified approach to handle both
discrete data (e.g., text and code) and continuous data (e.g., image, audio,
video). In this work, we propose Latent Language Modeling (LatentLM), which
seamlessly integrates continuous and discrete data using causal Transformers.
Specifically, we employ a variational autoencoder (VAE) to represent continuous
data as latent vectors and introduce next-token diffusion for autoregressive
generation of these vectors. Additionally, we develop sigma-VAE to address
the challenges of variance collapse, which is crucial for autoregressive
modeling. Extensive experiments demonstrate the effectiveness of LatentLM
across various modalities. In image generation, LatentLM surpasses Diffusion
Transformers in both performance and scalability. When integrated into
multimodal large language models, LatentLM provides a general-purpose interface
that unifies multimodal generation and understanding. Experimental results show
that LatentLM achieves favorable performance compared to Transfusion and vector
quantized models in the setting of scaling up training tokens. In
text-to-speech synthesis, LatentLM outperforms the state-of-the-art VALL-E 2
model in speaker similarity and robustness, while requiring 10x fewer decoding
steps. The results establish LatentLM as a highly effective and scalable
approach to advance large multimodal models.Summary
AI-Generated Summary