ChatPaper.aiChatPaper

FreeInit: 비디오 확산 모델의 초기화 격차 해소

FreeInit: Bridging Initialization Gap in Video Diffusion Models

December 12, 2023
저자: Tianxing Wu, Chenyang Si, Yuming Jiang, Ziqi Huang, Ziwei Liu
cs.AI

초록

확산 기반 비디오 생성이 빠르게 발전하고 있음에도 불구하고, 기존 모델들의 추론 결과는 여전히 만족스럽지 않은 시간적 일관성과 부자연스러운 동역학을 보여줍니다. 본 논문에서는 비디오 확산 모델의 노이즈 초기화를 깊이 있게 탐구하며, 추론 품질이 만족스럽지 못한 원인으로 작용하는 암묵적인 훈련-추론 간극을 발견했습니다. 우리의 주요 발견은 다음과 같습니다: 1) 추론 시 초기 잠재 변수의 공간-시간 주파수 분포는 훈련 시와 본질적으로 다르며, 2) 노이즈 제거 과정은 초기 노이즈의 저주파 성분에 의해 크게 영향을 받습니다. 이러한 관찰을 바탕으로, 우리는 간결하면서도 효과적인 추론 샘플링 전략인 FreeInit을 제안합니다. 이는 확산 모델에 의해 생성된 비디오의 시간적 일관성을 크게 향상시킵니다. FreeInit은 추론 과정에서 초기 잠재 변수의 공간-시간 저주파 성분을 반복적으로 개선함으로써, 훈련과 추론 간의 초기화 간극을 보상하고, 생성 결과의 대상 외관과 시간적 일관성을 효과적으로 개선합니다. 광범위한 실험을 통해 FreeInit이 추가 훈련 없이도 다양한 텍스트-투-비디오 생성 모델의 생성 결과를 일관되게 향상시킴을 입증했습니다.
English
Though diffusion-based video generation has witnessed rapid progress, the inference results of existing models still exhibit unsatisfactory temporal consistency and unnatural dynamics. In this paper, we delve deep into the noise initialization of video diffusion models, and discover an implicit training-inference gap that attributes to the unsatisfactory inference quality. Our key findings are: 1) the spatial-temporal frequency distribution of the initial latent at inference is intrinsically different from that for training, and 2) the denoising process is significantly influenced by the low-frequency components of the initial noise. Motivated by these observations, we propose a concise yet effective inference sampling strategy, FreeInit, which significantly improves temporal consistency of videos generated by diffusion models. Through iteratively refining the spatial-temporal low-frequency components of the initial latent during inference, FreeInit is able to compensate the initialization gap between training and inference, thus effectively improving the subject appearance and temporal consistency of generation results. Extensive experiments demonstrate that FreeInit consistently enhances the generation results of various text-to-video generation models without additional training.
PDF272December 15, 2024