I4VGen: 텍스트-비디오 생성을 위한 이미지 기반 스텝스톤
I4VGen: Image as Stepping Stone for Text-to-Video Generation
June 4, 2024
저자: Xiefan Guo, Jinlin Liu, Miaomiao Cui, Di Huang
cs.AI
초록
텍스트-투-비디오 생성은 시공간 모델링의 복잡성과 제한된 비디오-텍스트 데이터셋으로 인해 텍스트-투-이미지 합성에 비해 품질과 다양성 면에서 뒤처져 왔습니다. 본 논문은 강력한 이미지 기술을 활용하여 텍스트-투-비디오 생성을 향상시키는, 학습이 필요 없고 플러그 앤 플레이 방식의 비디오 확산 추론 프레임워크인 I4VGen을 소개합니다. 구체적으로, 텍스트-투-이미지-투-비디오 방식을 따라 I4VGen은 텍스트-투-비디오 생성을 두 단계로 분해합니다: 앵커 이미지 합성과 앵커 이미지 기반 비디오 합성. 이에 상응하여, 시각적으로 현실적이고 의미론적으로 충실한 앵커 이미지를 달성하기 위해 잘 설계된 생성-선택 파이프라인이 사용되며, 이미지를 동적 비디오로 변환하기 위해 혁신적인 노이즈 불변 비디오 점수 증류 샘플링이 도입됩니다. 이후 비디오 재생성 과정을 통해 비디오를 정제합니다. 이 추론 전략은 널리 퍼진 비제로 터미널 신호 대 잡음비 문제를 효과적으로 완화합니다. 광범위한 평가를 통해 I4VGen이 더 높은 시각적 현실감과 텍스트 충실도를 가진 비디오를 생성할 뿐만 아니라, 기존의 이미지-투-비디오 확산 모델에 원활하게 통합되어 전반적인 비디오 품질을 향상시킨다는 것을 보여줍니다.
English
Text-to-video generation has lagged behind text-to-image synthesis in quality
and diversity due to the complexity of spatio-temporal modeling and limited
video-text datasets. This paper presents I4VGen, a training-free and
plug-and-play video diffusion inference framework, which enhances text-to-video
generation by leveraging robust image techniques. Specifically, following
text-to-image-to-video, I4VGen decomposes the text-to-video generation into two
stages: anchor image synthesis and anchor image-guided video synthesis.
Correspondingly, a well-designed generation-selection pipeline is employed to
achieve visually-realistic and semantically-faithful anchor image, and an
innovative Noise-Invariant Video Score Distillation Sampling is incorporated to
animate the image to a dynamic video, followed by a video regeneration process
to refine the video. This inference strategy effectively mitigates the
prevalent issue of non-zero terminal signal-to-noise ratio. Extensive
evaluations show that I4VGen not only produces videos with higher visual
realism and textual fidelity but also integrates seamlessly into existing
image-to-video diffusion models, thereby improving overall video quality.Summary
AI-Generated Summary