ChatPaper.aiChatPaper

DropletVideo: 통합 시공간 일관성 비디오 생성 탐구를 위한 데이터셋 및 접근법

DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation

March 8, 2025
저자: Runze Zhang, Guoguang Du, Xiaochuan Li, Qi Jia, Liang Jin, Lu Liu, Jingjing Wang, Cong Xu, Zhenhua Guo, Yaqian Zhao, Xiaoli Gong, Rengang Li, Baoyu Fan
cs.AI

초록

시공간적 일관성은 비디오 생성 분야에서 중요한 연구 주제입니다. 적절하게 생성된 비디오 세그먼트는 플롯의 타당성과 일관성을 보장해야 하며, 동시에 다양한 시점에서 객체와 장면의 시각적 일관성을 유지해야 합니다. 기존 연구, 특히 오픈소스 프로젝트에서는 주로 시간적 또는 공간적 일관성, 또는 이들의 기본적인 결합에 초점을 맞추었습니다. 예를 들어, 프롬프트 뒤에 카메라 이동에 대한 설명을 추가하되, 이 이동의 결과를 제약하지 않는 방식이었습니다. 그러나 카메라 이동은 장면에 새로운 객체를 추가하거나 기존 객체를 제거할 수 있으며, 이로 인해 이전의 내러티브가 중첩되거나 영향을 받을 수 있습니다. 특히 카메라 이동이 빈번한 비디오에서는 여러 플롯 간의 상호작용이 점점 더 복잡해집니다. 본 논문은 플롯 진행과 카메라 기법 간의 시너지, 그리고 이전 콘텐츠가 후속 생성에 미치는 장기적인 영향을 고려한 통합적 시공간 일관성을 소개하고 검토합니다. 우리의 연구는 데이터셋 구축부터 모델 개발까지를 포괄합니다. 먼저, 동적 카메라 모션과 객체 동작을 포함한 1,000만 개의 비디오로 구성된 DropletVideo-10M 데이터셋을 구축했습니다. 각 비디오는 다양한 카메라 이동과 플롯 전개를 상세히 설명하는 평균 206단어의 캡션으로 주석 처리되었습니다. 이어서, 비디오 생성 과정에서 시공간적 일관성을 유지하는 데 탁월한 성능을 보이는 DropletVideo 모델을 개발하고 학습시켰습니다. DropletVideo 데이터셋과 모델은 https://dropletx.github.io에서 확인할 수 있습니다.
English
Spatio-temporal consistency is a critical research topic in video generation. A qualified generated video segment must ensure plot plausibility and coherence while maintaining visual consistency of objects and scenes across varying viewpoints. Prior research, especially in open-source projects, primarily focuses on either temporal or spatial consistency, or their basic combination, such as appending a description of a camera movement after a prompt without constraining the outcomes of this movement. However, camera movement may introduce new objects to the scene or eliminate existing ones, thereby overlaying and affecting the preceding narrative. Especially in videos with numerous camera movements, the interplay between multiple plots becomes increasingly complex. This paper introduces and examines integral spatio-temporal consistency, considering the synergy between plot progression and camera techniques, and the long-term impact of prior content on subsequent generation. Our research encompasses dataset construction through to the development of the model. Initially, we constructed a DropletVideo-10M dataset, which comprises 10 million videos featuring dynamic camera motion and object actions. Each video is annotated with an average caption of 206 words, detailing various camera movements and plot developments. Following this, we developed and trained the DropletVideo model, which excels in preserving spatio-temporal coherence during video generation. The DropletVideo dataset and model are accessible at https://dropletx.github.io.

Summary

AI-Generated Summary

PDF1382March 18, 2025