UniVG: 통합 모달 비디오 생성 기술
UniVG: Towards UNIfied-modal Video Generation
January 17, 2024
저자: Ludan Ruan, Lei Tian, Chuanwei Huang, Xu Zhang, Xinyan Xiao
cs.AI
초록
확산 기반 비디오 생성은 학계와 산업계 모두에서 광범위한 관심을 받으며 상당한 성공을 거두었습니다. 그러나 현재의 연구는 주로 단일 목표 또는 단일 작업 비디오 생성, 예를 들어 텍스트, 이미지 또는 텍스트와 이미지의 조합에 의해 구동되는 생성에 집중되어 있습니다. 이는 실제 응용 시나리오의 요구를 완전히 충족시키지 못하는데, 사용자는 이미지와 텍스트 조건을 개별적으로 또는 조합하여 유연하게 입력할 가능성이 높기 때문입니다. 이를 해결하기 위해, 우리는 텍스트와 이미지 양식에 걸쳐 다양한 비디오 생성 작업을 처리할 수 있는 통합 모달 비디오 생성 시스템을 제안합니다. 이를 위해, 우리는 생성 자유도의 관점에서 시스템 내 다양한 비디오 생성 작업을 재검토하고, 이를 높은 자유도와 낮은 자유도 비디오 생성 범주로 분류합니다. 높은 자유도 비디오 생성을 위해, 우리는 입력 이미지 또는 텍스트의 의미와 일치하는 비디오를 생성하기 위해 다중 조건 교차 주의를 사용합니다. 낮은 자유도 비디오 생성을 위해, 우리는 순수한 무작위 가우시안 노이즈를 대체하여 입력 조건의 내용을 더 잘 보존하는 편향된 가우시안 노이즈를 도입합니다. 우리의 방법은 공개 학술 벤치마크인 MSR-VTT에서 가장 낮은 프레셰 비디오 거리(Fréchet Video Distance, FVD)를 달성했으며, 현재의 오픈소스 방법들을 인간 평가에서 능가하고, 현재의 클로즈드소스 방법인 Gen2와 동등한 성능을 보입니다. 더 많은 샘플을 보려면 https://univg-baidu.github.io를 방문하십시오.
English
Diffusion based video generation has received extensive attention and
achieved considerable success within both the academic and industrial
communities. However, current efforts are mainly concentrated on
single-objective or single-task video generation, such as generation driven by
text, by image, or by a combination of text and image. This cannot fully meet
the needs of real-world application scenarios, as users are likely to input
images and text conditions in a flexible manner, either individually or in
combination. To address this, we propose a Unified-modal Video Genearation
system that is capable of handling multiple video generation tasks across text
and image modalities. To this end, we revisit the various video generation
tasks within our system from the perspective of generative freedom, and
classify them into high-freedom and low-freedom video generation categories.
For high-freedom video generation, we employ Multi-condition Cross Attention to
generate videos that align with the semantics of the input images or text. For
low-freedom video generation, we introduce Biased Gaussian Noise to replace the
pure random Gaussian Noise, which helps to better preserve the content of the
input conditions. Our method achieves the lowest Fr\'echet Video Distance (FVD)
on the public academic benchmark MSR-VTT, surpasses the current open-source
methods in human evaluations, and is on par with the current close-source
method Gen2. For more samples, visit https://univg-baidu.github.io.