Le meilleur des deux mondes : Intégration des modèles de langage et des modèles de diffusion pour la génération vidéo
The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation
March 6, 2025
Auteurs: Aoxiong Yin, Kai Shen, Yichong Leng, Xu Tan, Xinyu Zhou, Juncheng Li, Siliang Tang
cs.AI
Résumé
Les récents progrès dans la génération de texte-à-vidéo (T2V) ont été portés par deux paradigmes concurrents : les modèles de langage autorégressifs et les modèles de diffusion. Cependant, chaque paradigme présente des limitations intrinsèques : les modèles de langage peinent à atteindre une qualité visuelle élevée et accumulent des erreurs, tandis que les modèles de diffusion manquent de compréhension sémantique et de modélisation causale. Dans ce travail, nous proposons LanDiff, un cadre hybride qui combine les forces des deux paradigmes grâce à une génération allant du grossier au fin. Notre architecture introduit trois innovations clés : (1) un tokeniseur sémantique qui compresse les caractéristiques visuelles 3D en représentations discrètes 1D compactes via une compression sémantique efficace, atteignant un taux de compression de 14 000 fois ; (2) un modèle de langage qui génère des tokens sémantiques avec des relations sémantiques de haut niveau ; (3) un modèle de diffusion en flux qui affine la sémantique grossière en vidéos haute fidélité. Les expériences montrent que LanDiff, un modèle de 5 milliards de paramètres, obtient un score de 85,43 sur le benchmark T2V VBench, surpassant les modèles open-source de pointe comme Hunyuan Video (13 milliards) et d'autres modèles commerciaux tels que Sora, Keling et Hailuo. De plus, notre modèle atteint également des performances de pointe dans la génération de vidéos longues, surpassant les autres modèles open-source dans ce domaine. Notre démo est disponible à l'adresse https://landiff.github.io/.
English
Recent advancements in text-to-video (T2V) generation have been driven by two
competing paradigms: autoregressive language models and diffusion models.
However, each paradigm has intrinsic limitations: language models struggle with
visual quality and error accumulation, while diffusion models lack semantic
understanding and causal modeling. In this work, we propose LanDiff, a hybrid
framework that synergizes the strengths of both paradigms through
coarse-to-fine generation. Our architecture introduces three key innovations:
(1) a semantic tokenizer that compresses 3D visual features into compact 1D
discrete representations through efficient semantic compression, achieving a
sim14,000times compression ratio; (2) a language model that generates
semantic tokens with high-level semantic relationships; (3) a streaming
diffusion model that refines coarse semantics into high-fidelity videos.
Experiments show that LanDiff, a 5B model, achieves a score of 85.43 on the
VBench T2V benchmark, surpassing the state-of-the-art open-source models
Hunyuan Video (13B) and other commercial models such as Sora, Keling, and
Hailuo. Furthermore, our model also achieves state-of-the-art performance in
long video generation, surpassing other open-source models in this field. Our
demo can be viewed at https://landiff.github.io/.Summary
AI-Generated Summary