ChatPaper.aiChatPaper

점진적 자기회귀 비디오 확산 모델

Progressive Autoregressive Video Diffusion Models

October 10, 2024
저자: Desai Xie, Zhan Xu, Yicong Hong, Hao Tan, Difan Liu, Feng Liu, Arie Kaufman, Yang Zhou
cs.AI

초록

현재의 선두 영상 확산 모델들은 고품질 비디오를 생성하는 놀라운 결과를 보여주었습니다. 그러나 훈련 중의 계산 제약으로 인해 보통 10초 또는 240프레임 정도의 짧은 비디오 클립만 생성할 수 있습니다. 본 연구에서는 기존 모델이 구조를 변경하지 않고도 자연스럽게 자기 회귀적인 비디오 확산 모델로 확장될 수 있다는 것을 보여줍니다. 우리의 주요 아이디어는 단일 잡음 수준이 아닌 점진적으로 증가하는 잡음 수준으로 잠재 프레임을 할당하는 것입니다. 이는 잠재들 간의 세밀한 조건과 주의 창 사이의 큰 중첩을 가능하게 하며, 이러한 점진적 비디오 노이즈 제거를 통해 우리의 모델이 품질 저하나 급격한 장면 변화 없이 비디오 프레임을 자기 회귀적으로 생성할 수 있게 합니다. 우리는 1분(24 FPS에서 1440프레임)의 긴 비디오 생성에 대한 최첨단 결과를 제시합니다. 이 논문의 비디오는 https://desaixie.github.io/pa-vdm/에서 확인할 수 있습니다.
English
Current frontier video diffusion models have demonstrated remarkable results at generating high-quality videos. However, they can only generate short video clips, normally around 10 seconds or 240 frames, due to computation limitations during training. In this work, we show that existing models can be naturally extended to autoregressive video diffusion models without changing the architectures. Our key idea is to assign the latent frames with progressively increasing noise levels rather than a single noise level, which allows for fine-grained condition among the latents and large overlaps between the attention windows. Such progressive video denoising allows our models to autoregressively generate video frames without quality degradation or abrupt scene changes. We present state-of-the-art results on long video generation at 1 minute (1440 frames at 24 FPS). Videos from this paper are available at https://desaixie.github.io/pa-vdm/.

Summary

AI-Generated Summary

PDF164November 16, 2024