요소화된 Dreamer: 제한된 고품질 및 저품질 데이터로 고품질 비디오 생성기를 훈련하기
Factorized-Dreamer: Training A High-Quality Video Generator with Limited and Low-Quality Data
August 19, 2024
저자: Tao Yang, Yangming Shi, Yunwen Huang, Feng Chen, Yin Zheng, Lei Zhang
cs.AI
초록
텍스트-비디오 (T2V) 생성은 비디오 생성, 편집, 향상 및 번역 등 다양한 응용 분야로 인해 상당한 관심을 받고 있습니다. 그러나 실제 세계에 존재하는 다양하고 복잡한 동작 때문에 고품질 (HQ) 비디오 합성은 매우 어려운 과제입니다. 대부분의 기존 연구는 커뮤니티에서 접근할 수 없는 대규모 HQ 비디오를 수집함으로써 이 문제를 해결하기 위해 노력하고 있습니다. 본 연구에서는 공개적으로 제공되는 제한적이고 저품질 (LQ) 데이터만으로도 다시 캡션화하거나 파인튜닝하지 않고도 HQ 비디오 생성기를 훈련시킬 수 있는 것을 보여줍니다. 전체 T2V 생성 과정을 이미지를 생성하는 단계와 생성된 이미지 및 동작 세부 사항의 간결한 캡션에 의존하여 비디오를 합성하는 단계로 분해합니다. 구체적으로, 우리는 Factorized-Dreamer를 제시합니다. 이는 텍스트 및 이미지 임베딩을 결합하는 어댑터, 픽셀 수준 이미지 정보를 캡처하는 픽셀-인식 교차 어텐션 모듈, 움직임 설명을 더 잘 이해하기 위한 T5 텍스트 인코더, 광학 흐름을 감독하기 위한 PredictNet을 포함한 T2V 생성을 위한 중요한 설계 요소를 갖춘 요소화된 시공간 프레임워크입니다. 또한 비디오 생성의 품질과 안정성을 보장하는 데 중요한 역할을 하는 노이즈 스케줄을 제시합니다. 우리의 모델은 상세한 캡션 및 HQ 비디오에 대한 요구 사항을 낮추며, WebVid-10M과 같은 잡음이 많고 간결한 캡션으로 제한된 LQ 데이터셋에서 직접 훈련시킬 수 있어 대규모 HQ 비디오-텍스트 쌍을 수집하는 비용을 크게 경감시킵니다. 다양한 T2V 및 이미지-비디오 생성 작업에서의 광범위한 실험은 우리가 제안한 Factorized-Dreamer의 효과를 입증합니다. 소스 코드는 https://github.com/yangxy/Factorized-Dreamer/에서 제공됩니다.
English
Text-to-video (T2V) generation has gained significant attention due to its
wide applications to video generation, editing, enhancement and translation,
\etc. However, high-quality (HQ) video synthesis is extremely challenging
because of the diverse and complex motions existed in real world. Most existing
works struggle to address this problem by collecting large-scale HQ videos,
which are inaccessible to the community. In this work, we show that publicly
available limited and low-quality (LQ) data are sufficient to train a HQ video
generator without recaptioning or finetuning. We factorize the whole T2V
generation process into two steps: generating an image conditioned on a highly
descriptive caption, and synthesizing the video conditioned on the generated
image and a concise caption of motion details. Specifically, we present
Factorized-Dreamer, a factorized spatiotemporal framework with several
critical designs for T2V generation, including an adapter to combine text and
image embeddings, a pixel-aware cross attention module to capture pixel-level
image information, a T5 text encoder to better understand motion description,
and a PredictNet to supervise optical flows. We further present a noise
schedule, which plays a key role in ensuring the quality and stability of video
generation. Our model lowers the requirements in detailed captions and HQ
videos, and can be directly trained on limited LQ datasets with noisy and brief
captions such as WebVid-10M, largely alleviating the cost to collect
large-scale HQ video-text pairs. Extensive experiments in a variety of T2V and
image-to-video generation tasks demonstrate the effectiveness of our proposed
Factorized-Dreamer. Our source codes are available at
https://github.com/yangxy/Factorized-Dreamer/.Summary
AI-Generated Summary