Modelagem de Linguagem Latente Multimodal com Difusão do Próximo Token.
Multimodal Latent Language Modeling with Next-Token Diffusion
December 11, 2024
Autores: Yutao Sun, Hangbo Bao, Wenhui Wang, Zhiliang Peng, Li Dong, Shaohan Huang, Jianyong Wang, Furu Wei
cs.AI
Resumo
Modelos generativos multimodais requerem uma abordagem unificada para lidar tanto com dados discretos (por exemplo, texto e código) quanto com dados contínuos (por exemplo, imagem, áudio, vídeo). Neste trabalho, propomos Modelagem de Linguagem Latente (LatentLM), que integra de forma contínua dados contínuos e discretos usando Transformadores causais. Especificamente, empregamos um autoencoder variacional (VAE) para representar dados contínuos como vetores latentes e introduzimos difusão do próximo token para geração autoregressiva desses vetores. Adicionalmente, desenvolvemos sigma-VAE para lidar com os desafios do colapso de variância, o que é crucial para modelagem autoregressiva. Experimentos extensivos demonstram a eficácia do LatentLM em várias modalidades. Na geração de imagens, o LatentLM supera os Transformadores de Difusão tanto em desempenho quanto em escalabilidade. Quando integrado em grandes modelos de linguagem multimodais, o LatentLM fornece uma interface de uso geral que unifica a geração e compreensão multimodais. Resultados experimentais mostram que o LatentLM alcança desempenho favorável em comparação com os modelos Transfusion e quantizados por vetor na configuração de aumento de tokens de treinamento. Na síntese de texto para fala, o LatentLM supera o modelo VALL-E 2 de última geração em similaridade e robustez de locutor, enquanto requer 10 vezes menos etapas de decodificação. Os resultados estabelecem o LatentLM como uma abordagem altamente eficaz e escalável para avançar em grandes modelos multimodais.
English
Multimodal generative models require a unified approach to handle both
discrete data (e.g., text and code) and continuous data (e.g., image, audio,
video). In this work, we propose Latent Language Modeling (LatentLM), which
seamlessly integrates continuous and discrete data using causal Transformers.
Specifically, we employ a variational autoencoder (VAE) to represent continuous
data as latent vectors and introduce next-token diffusion for autoregressive
generation of these vectors. Additionally, we develop sigma-VAE to address
the challenges of variance collapse, which is crucial for autoregressive
modeling. Extensive experiments demonstrate the effectiveness of LatentLM
across various modalities. In image generation, LatentLM surpasses Diffusion
Transformers in both performance and scalability. When integrated into
multimodal large language models, LatentLM provides a general-purpose interface
that unifies multimodal generation and understanding. Experimental results show
that LatentLM achieves favorable performance compared to Transfusion and vector
quantized models in the setting of scaling up training tokens. In
text-to-speech synthesis, LatentLM outperforms the state-of-the-art VALL-E 2
model in speaker similarity and robustness, while requiring 10x fewer decoding
steps. The results establish LatentLM as a highly effective and scalable
approach to advance large multimodal models.Summary
AI-Generated Summary