ChatPaper.aiChatPaper

양쪽 세계의 최고: 비디오 생성을 위한 언어 모델과 확산 모델의 통합

The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation

March 6, 2025
저자: Aoxiong Yin, Kai Shen, Yichong Leng, Xu Tan, Xinyu Zhou, Juncheng Li, Siliang Tang
cs.AI

초록

최근 텍스트-투-비디오(T2V) 생성 분야의 발전은 두 가지 경쟁 패러다임, 즉 자기회귀 언어 모델과 확산 모델에 의해 주도되어 왔습니다. 그러나 각 패러다임은 고유한 한계를 가지고 있습니다: 언어 모델은 시각적 품질과 오류 누적 문제에 어려움을 겪는 반면, 확산 모델은 의미론적 이해와 인과 관계 모델링이 부족합니다. 본 연구에서는 이러한 두 패러다임의 강점을 조화롭게 결합한 하이브리드 프레임워크인 LanDiff를 제안합니다. 우리의 아키텍처는 세 가지 주요 혁신을 도입합니다: (1) 3D 시각적 특징을 효율적인 의미론적 압축을 통해 간결한 1D 이산 표현으로 압축하는 의미론적 토크나이저로, 이는 14,000배의 압축 비율을 달성합니다; (2) 고수준의 의미론적 관계를 가진 의미론적 토큰을 생성하는 언어 모델; (3) 거친 의미론을 고화질 비디오로 정제하는 스트리밍 확산 모델. 실험 결과, 5B 규모의 LanDiff는 VBench T2V 벤치마크에서 85.43점을 달성하여 최첨단 오픈소스 모델인 Hunyuan Video(13B)와 Sora, Keling, Hailuo와 같은 상용 모델을 능가했습니다. 또한, 우리의 모델은 장편 비디오 생성 분야에서도 최첨단 성능을 달성하여 이 분야의 다른 오픈소스 모델들을 뛰어넘었습니다. 우리의 데모는 https://landiff.github.io/에서 확인할 수 있습니다.
English
Recent advancements in text-to-video (T2V) generation have been driven by two competing paradigms: autoregressive language models and diffusion models. However, each paradigm has intrinsic limitations: language models struggle with visual quality and error accumulation, while diffusion models lack semantic understanding and causal modeling. In this work, we propose LanDiff, a hybrid framework that synergizes the strengths of both paradigms through coarse-to-fine generation. Our architecture introduces three key innovations: (1) a semantic tokenizer that compresses 3D visual features into compact 1D discrete representations through efficient semantic compression, achieving a sim14,000times compression ratio; (2) a language model that generates semantic tokens with high-level semantic relationships; (3) a streaming diffusion model that refines coarse semantics into high-fidelity videos. Experiments show that LanDiff, a 5B model, achieves a score of 85.43 on the VBench T2V benchmark, surpassing the state-of-the-art open-source models Hunyuan Video (13B) and other commercial models such as Sora, Keling, and Hailuo. Furthermore, our model also achieves state-of-the-art performance in long video generation, surpassing other open-source models in this field. Our demo can be viewed at https://landiff.github.io/.

Summary

AI-Generated Summary

PDF91March 7, 2025