ChatPaper.aiChatPaper

Lo mejor de ambos mundos: Integración de modelos de lenguaje y modelos de difusión para la generación de videos

The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation

March 6, 2025
Autores: Aoxiong Yin, Kai Shen, Yichong Leng, Xu Tan, Xinyu Zhou, Juncheng Li, Siliang Tang
cs.AI

Resumen

Los avances recientes en la generación de texto a video (T2V) han sido impulsados por dos paradigmas en competencia: los modelos de lenguaje autoregresivos y los modelos de difusión. Sin embargo, cada paradigma tiene limitaciones intrínsecas: los modelos de lenguaje luchan con la calidad visual y la acumulación de errores, mientras que los modelos de difusión carecen de comprensión semántica y modelado causal. En este trabajo, proponemos LanDiff, un marco híbrido que sinergiza las fortalezas de ambos paradigmas a través de una generación de lo general a lo detallado. Nuestra arquitectura introduce tres innovaciones clave: (1) un tokenizador semántico que comprime características visuales 3D en representaciones discretas 1D compactas mediante compresión semántica eficiente, logrando una relación de compresión de 14,000 veces; (2) un modelo de lenguaje que genera tokens semánticos con relaciones semánticas de alto nivel; (3) un modelo de difusión en flujo que refina la semántica general en videos de alta fidelidad. Los experimentos muestran que LanDiff, un modelo de 5B, alcanza una puntuación de 85.43 en el benchmark T2V de VBench, superando a los modelos de código abierto más avanzados como Hunyuan Video (13B) y otros modelos comerciales como Sora, Keling y Hailuo. Además, nuestro modelo también logra un rendimiento de vanguardia en la generación de videos largos, superando a otros modelos de código abierto en este campo. Nuestra demostración puede verse en https://landiff.github.io/.
English
Recent advancements in text-to-video (T2V) generation have been driven by two competing paradigms: autoregressive language models and diffusion models. However, each paradigm has intrinsic limitations: language models struggle with visual quality and error accumulation, while diffusion models lack semantic understanding and causal modeling. In this work, we propose LanDiff, a hybrid framework that synergizes the strengths of both paradigms through coarse-to-fine generation. Our architecture introduces three key innovations: (1) a semantic tokenizer that compresses 3D visual features into compact 1D discrete representations through efficient semantic compression, achieving a sim14,000times compression ratio; (2) a language model that generates semantic tokens with high-level semantic relationships; (3) a streaming diffusion model that refines coarse semantics into high-fidelity videos. Experiments show that LanDiff, a 5B model, achieves a score of 85.43 on the VBench T2V benchmark, surpassing the state-of-the-art open-source models Hunyuan Video (13B) and other commercial models such as Sora, Keling, and Hailuo. Furthermore, our model also achieves state-of-the-art performance in long video generation, surpassing other open-source models in this field. Our demo can be viewed at https://landiff.github.io/.

Summary

AI-Generated Summary

PDF91March 7, 2025