DropletVideo: Набор данных и подход для исследования целостной пространственно-временной согласованной генерации видеоDropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal
Consistent Video Generation
Пространственно-временная согласованность является ключевой темой исследований в области генерации видео. Качественно сгенерированный видеосегмент должен обеспечивать правдоподобность и связность сюжета, сохраняя при этом визуальную согласованность объектов и сцен при изменении ракурсов. Предыдущие исследования, особенно в открытых проектах, в основном сосредоточены либо на временной, либо на пространственной согласованности, или их базовой комбинации, например, добавлении описания движения камеры после запроса без ограничения результатов этого движения. Однако движение камеры может вводить в сцену новые объекты или удалять существующие, тем самым накладываясь и влияя на предшествующий нарратив. Особенно в видео с многочисленными движениями камеры взаимодействие между несколькими сюжетными линиями становится всё более сложным. В данной статье представлено и исследовано понятие интегральной пространственно-временной согласованности, учитывающей синергию между развитием сюжета и техниками съёмки, а также долгосрочное влияние предшествующего контента на последующую генерацию. Наше исследование охватывает создание набора данных и разработку модели. Изначально мы создали набор данных DropletVideo-10M, который включает 10 миллионов видео с динамическим движением камеры и действиями объектов. Каждое видео аннотировано средним описанием из 206 слов, детализирующим различные движения камеры и развитие сюжета. Затем мы разработали и обучили модель DropletVideo, которая превосходно сохраняет пространственно-временную согласованность при генерации видео. Набор данных и модель DropletVideo доступны по адресу https://dropletx.github.io.