DropletVideo: Набор данных и подход для исследования целостной пространственно-временной согласованной генерации видео

Аннотация

Пространственно-временная согласованность является ключевой темой исследований в области генерации видео. Качественно сгенерированный видеосегмент должен обеспечивать правдоподобность и связность сюжета, сохраняя при этом визуальную согласованность объектов и сцен при изменении ракурсов. Предыдущие исследования, особенно в открытых проектах, в основном сосредоточены либо на временной, либо на пространственной согласованности, или их базовой комбинации, например, добавлении описания движения камеры после запроса без ограничения результатов этого движения. Однако движение камеры может вводить в сцену новые объекты или удалять существующие, тем самым накладываясь и влияя на предшествующий нарратив. Особенно в видео с многочисленными движениями камеры взаимодействие между несколькими сюжетными линиями становится всё более сложным. В данной статье представлено и исследовано понятие интегральной пространственно-временной согласованности, учитывающей синергию между развитием сюжета и техниками съёмки, а также долгосрочное влияние предшествующего контента на последующую генерацию. Наше исследование охватывает создание набора данных и разработку модели. Изначально мы создали набор данных DropletVideo-10M, который включает 10 миллионов видео с динамическим движением камеры и действиями объектов. Каждое видео аннотировано средним описанием из 206 слов, детализирующим различные движения камеры и развитие сюжета. Затем мы разработали и обучили модель DropletVideo, которая превосходно сохраняет пространственно-временную согласованность при генерации видео. Набор данных и модель DropletVideo доступны по адресу https://dropletx.github.io.

English

Spatio-temporal consistency is a critical research topic in video generation. A qualified generated video segment must ensure plot plausibility and coherence while maintaining visual consistency of objects and scenes across varying viewpoints. Prior research, especially in open-source projects, primarily focuses on either temporal or spatial consistency, or their basic combination, such as appending a description of a camera movement after a prompt without constraining the outcomes of this movement. However, camera movement may introduce new objects to the scene or eliminate existing ones, thereby overlaying and affecting the preceding narrative. Especially in videos with numerous camera movements, the interplay between multiple plots becomes increasingly complex. This paper introduces and examines integral spatio-temporal consistency, considering the synergy between plot progression and camera techniques, and the long-term impact of prior content on subsequent generation. Our research encompasses dataset construction through to the development of the model. Initially, we constructed a DropletVideo-10M dataset, which comprises 10 million videos featuring dynamic camera motion and object actions. Each video is annotated with an average caption of 206 words, detailing various camera movements and plot developments. Following this, we developed and trained the DropletVideo model, which excels in preserving spatio-temporal coherence during video generation. The DropletVideo dataset and model are accessible at https://dropletx.github.io.

DropletVideo: Набор данных и подход для исследования целостной пространственно-временной согласованной генерации видео

DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation

Аннотация

Support