Modelado de Lenguaje Latente Multimodal con Difusión del Próximo Token.

Resumen

Los modelos generativos multimodales requieren un enfoque unificado para manejar tanto datos discretos (por ejemplo, texto y código) como datos continuos (por ejemplo, imagen, audio, video). En este trabajo, proponemos Modelado de Lenguaje Latente (LatentLM), que integra de manera fluida datos continuos y discretos utilizando Transformadores causales. Específicamente, empleamos un autoencoder variacional (VAE) para representar datos continuos como vectores latentes e introducimos difusión de siguiente token para la generación autoregresiva de estos vectores. Además, desarrollamos sigma-VAE para abordar los desafíos de colapso de varianza, lo cual es crucial para la modelización autoregresiva. Experimentos extensos demuestran la efectividad de LatentLM en diversas modalidades. En generación de imágenes, LatentLM supera a los Transformadores de Difusión tanto en rendimiento como en escalabilidad. Cuando se integra en modelos de lenguaje grandes multimodales, LatentLM proporciona una interfaz de propósito general que unifica la generación y comprensión multimodal. Los resultados experimentales muestran que LatentLM logra un rendimiento favorable en comparación con Transfusion y modelos cuantificados por vectores en el contexto de aumentar los tokens de entrenamiento. En síntesis de texto a voz, LatentLM supera al modelo VALL-E 2 de vanguardia en similitud y robustez del hablante, al tiempo que requiere 10 veces menos pasos de decodificación. Los resultados establecen a LatentLM como un enfoque altamente efectivo y escalable para avanzar en modelos multimodales grandes.

English

Multimodal generative models require a unified approach to handle both discrete data (e.g., text and code) and continuous data (e.g., image, audio, video). In this work, we propose Latent Language Modeling (LatentLM), which seamlessly integrates continuous and discrete data using causal Transformers. Specifically, we employ a variational autoencoder (VAE) to represent continuous data as latent vectors and introduce next-token diffusion for autoregressive generation of these vectors. Additionally, we develop sigma-VAE to address the challenges of variance collapse, which is crucial for autoregressive modeling. Extensive experiments demonstrate the effectiveness of LatentLM across various modalities. In image generation, LatentLM surpasses Diffusion Transformers in both performance and scalability. When integrated into multimodal large language models, LatentLM provides a general-purpose interface that unifies multimodal generation and understanding. Experimental results show that LatentLM achieves favorable performance compared to Transfusion and vector quantized models in the setting of scaling up training tokens. In text-to-speech synthesis, LatentLM outperforms the state-of-the-art VALL-E 2 model in speaker similarity and robustness, while requiring 10x fewer decoding steps. The results establish LatentLM as a highly effective and scalable approach to advance large multimodal models.

Modelado de Lenguaje Latente Multimodal con Difusión del Próximo Token.

Multimodal Latent Language Modeling with Next-Token Diffusion

Resumen

Support