ChatPaper.aiChatPaper

VideoCrafter2: 고품질 비디오 생성을 위한 데이터 한계 극복 확산 모델

VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models

January 17, 2024
저자: Haoxin Chen, Yong Zhang, Xiaodong Cun, Menghan Xia, Xintao Wang, Chao Weng, Ying Shan
cs.AI

초록

텍스트-투-비디오 생성은 주어진 프롬프트를 기반으로 비디오를 생성하는 것을 목표로 합니다. 최근 여러 상용 비디오 모델이 최소한의 노이즈, 뛰어난 디테일, 높은 미적 점수를 가진 그럴듯한 비디오를 생성할 수 있게 되었습니다. 그러나 이러한 모델들은 커뮤니티가 접근할 수 없는 대규모의 잘 필터링된 고품질 비디오에 의존하고 있습니다. WebVid-10M 데이터셋과 같은 저품질 데이터를 사용하여 모델을 학습시키는 많은 기존 연구들은 WebVid-10M에 맞추어 최적화되기 때문에 고품질 비디오를 생성하는 데 어려움을 겪습니다. 본 연구에서는 Stable Diffusion에서 확장된 비디오 모델의 학습 방식을 탐구하고, 저품질 비디오와 합성된 고품질 이미지를 활용하여 고품질 비디오 모델을 얻는 가능성을 조사합니다. 먼저, 비디오 모델의 공간 및 시간 모듈 간의 연결과 저품질 비디오로의 분포 변화를 분석합니다. 모든 모듈을 완전히 학습시키는 것이 시간 모듈만 학습시키는 것보다 공간 및 시간 모듈 간의 더 강한 결합을 초래한다는 것을 관찰합니다. 이러한 강한 결합을 기반으로, 고품질 이미지로 공간 모듈을 미세 조정하여 모션 저하 없이 더 높은 품질로 분포를 이동시킴으로써 일반적인 고품질 비디오 모델을 얻습니다. 제안된 방법의 우수성, 특히 화질, 모션, 개념 구성 측면에서의 우수성을 입증하기 위해 평가를 수행합니다.
English
Text-to-video generation aims to produce a video based on a given prompt. Recently, several commercial video models have been able to generate plausible videos with minimal noise, excellent details, and high aesthetic scores. However, these models rely on large-scale, well-filtered, high-quality videos that are not accessible to the community. Many existing research works, which train models using the low-quality WebVid-10M dataset, struggle to generate high-quality videos because the models are optimized to fit WebVid-10M. In this work, we explore the training scheme of video models extended from Stable Diffusion and investigate the feasibility of leveraging low-quality videos and synthesized high-quality images to obtain a high-quality video model. We first analyze the connection between the spatial and temporal modules of video models and the distribution shift to low-quality videos. We observe that full training of all modules results in a stronger coupling between spatial and temporal modules than only training temporal modules. Based on this stronger coupling, we shift the distribution to higher quality without motion degradation by finetuning spatial modules with high-quality images, resulting in a generic high-quality video model. Evaluations are conducted to demonstrate the superiority of the proposed method, particularly in picture quality, motion, and concept composition.
PDF142December 15, 2024