ChatPaper.aiChatPaper

SemanticGen: 의미 공간에서의 비디오 생성

SemanticGen: Video Generation in Semantic Space

December 23, 2025
저자: Jianhong Bai, Xiaoshi Wu, Xintao Wang, Fu Xiao, Yuanxing Zhang, Qinghe Wang, Xiaoyu Shi, Menghan Xia, Zuozhu Liu, Haoji Hu, Pengfei Wan, Kun Gai
cs.AI

초록

최첨단 비디오 생성 모델은 일반적으로 VAE 공간 내 비디오 잠재 변수의 분포를 학습하고 VAE 디코더를 사용해 픽셀로 매핑합니다. 이러한 접근 방식은 고품질 비디오를 생성할 수 있지만, 수렴 속도가 느리고 긴 비디오를 생성할 때 계산 비용이 많이 든다는 한계가 있습니다. 본 논문에서는 이러한 한계를 해결하기 위해 의미 공간에서 비디오를 생성하는 새로운 솔루션인 SemanticGen을 소개합니다. 우리의 주요 통찰은 비디오의 내재적 중복성으로 인해 생성 과정이 방대한 양의 저수준 비디오 토큰을 양방향 주의를 사용해 직접 모델링하기보다는, 전역 계획을 위해 컴팩트한 고수준 의미 공간에서 시작된 후 고주파 세부 정보를 추가하는 방식이어야 한다는 점입니다. SemanticGen은 두 단계의 생성 과정을 채택합니다. 첫 번째 단계에서는 확산 모델이 비디오의 전역 레이아웃을 정의하는 컴팩트한 의미 비디오 특징을 생성합니다. 두 번째 단계에서는 다른 확산 모델이 이러한 의미 특징에 조건부로 VAE 잠재 변수를 생성하여 최종 출력을 생성합니다. 우리는 의미 공간에서의 생성이 VAE 잠재 공간 대비 더 빠른 수렴으로 이어진다는 것을 관찰했습니다. 또한 우리의 방법은 긴 비디오 생성으로 확장되었을 때도 효과적이고 계산적으로 효율적입니다. 대규모 실험을 통해 SemanticGen이 고품질 비디오를 생성하며 최첨단 접근법과 강력한 베이스라인을 능가함을 입증했습니다.
English
State-of-the-art video generative models typically learn the distribution of video latents in the VAE space and map them to pixels using a VAE decoder. While this approach can generate high-quality videos, it suffers from slow convergence and is computationally expensive when generating long videos. In this paper, we introduce SemanticGen, a novel solution to address these limitations by generating videos in the semantic space. Our main insight is that, due to the inherent redundancy in videos, the generation process should begin in a compact, high-level semantic space for global planning, followed by the addition of high-frequency details, rather than directly modeling a vast set of low-level video tokens using bi-directional attention. SemanticGen adopts a two-stage generation process. In the first stage, a diffusion model generates compact semantic video features, which define the global layout of the video. In the second stage, another diffusion model generates VAE latents conditioned on these semantic features to produce the final output. We observe that generation in the semantic space leads to faster convergence compared to the VAE latent space. Our method is also effective and computationally efficient when extended to long video generation. Extensive experiments demonstrate that SemanticGen produces high-quality videos and outperforms state-of-the-art approaches and strong baselines.
PDF772December 25, 2025