ChatPaper.aiChatPaper

VIMI: 다중 모달 명령어를 통한 비디오 생성의 기반 구축

VIMI: Grounding Video Generation through Multi-modal Instruction

July 8, 2024
저자: Yuwei Fang, Willi Menapace, Aliaksandr Siarohin, Tsai-Shien Chen, Kuan-Chien Wang, Ivan Skorokhodov, Graham Neubig, Sergey Tulyakov
cs.AI

초록

기존의 텍스트-비디오 확산 모델들은 사전 학습에 오직 텍스트 전용 인코더만을 사용해 왔습니다. 이러한 한계는 대규모 멀티모달 프롬프트 비디오 데이터셋의 부재에서 비롯되며, 이로 인해 시각적 근거가 부족하고 멀티모달 통합에서의 다양성과 응용이 제한되었습니다. 이를 해결하기 위해, 우리는 검색 방법을 활용하여 주어진 텍스트 프롬프트와 문맥 내 예시를 짝짓는 대규모 멀티모달 프롬프트 데이터셋을 구축하고, 동일한 모델 내에서 다양한 비디오 생성 작업을 가능하게 하는 두 단계의 학습 전략을 사용합니다. 첫 번째 단계에서는 이러한 증강된 데이터셋에 대해 사전 학습을 위한 멀티모달 조건부 비디오 생성 프레임워크를 제안하여, 근거 있는 비디오 생성을 위한 기초 모델을 구축합니다. 두 번째 단계에서는 첫 번째 단계의 모델을 세 가지 비디오 생성 작업에 대해 멀티모달 지시를 포함하여 미세 조정합니다. 이 과정은 모델이 다양한 입력과 작업을 처리하는 능력을 더욱 세련되게 만들어 멀티모달 정보의 원활한 통합을 보장합니다. 이 두 단계의 학습 과정을 거친 후, VIMI는 멀티모달 이해 능력을 보여주며, 제공된 입력에 근거한 문맥적으로 풍부하고 개인화된 비디오를 생성합니다(그림 1 참조). 이전의 시각적 근거 비디오 생성 방법과 비교했을 때, VIMI는 큰 움직임을 유지하면서도 의미론적 제어를 유지하는 일관적이고 시간적으로 일관된 비디오를 합성할 수 있습니다. 마지막으로, VIMI는 UCF101 벤치마크에서 최첨단 텍스트-비디오 생성 결과를 달성합니다.
English
Existing text-to-video diffusion models rely solely on text-only encoders for their pretraining. This limitation stems from the absence of large-scale multimodal prompt video datasets, resulting in a lack of visual grounding and restricting their versatility and application in multimodal integration. To address this, we construct a large-scale multimodal prompt dataset by employing retrieval methods to pair in-context examples with the given text prompts and then utilize a two-stage training strategy to enable diverse video generation tasks within the same model. In the first stage, we propose a multimodal conditional video generation framework for pretraining on these augmented datasets, establishing a foundational model for grounded video generation. Secondly, we finetune the model from the first stage on three video generation tasks, incorporating multi-modal instructions. This process further refines the model's ability to handle diverse inputs and tasks, ensuring seamless integration of multi-modal information. After this two-stage train-ing process, VIMI demonstrates multimodal understanding capabilities, producing contextually rich and personalized videos grounded in the provided inputs, as shown in Figure 1. Compared to previous visual grounded video generation methods, VIMI can synthesize consistent and temporally coherent videos with large motion while retaining the semantic control. Lastly, VIMI also achieves state-of-the-art text-to-video generation results on UCF101 benchmark.

Summary

AI-Generated Summary

PDF101November 28, 2024