ChatPaper.aiChatPaper

DropletVideo: Een dataset en benadering om integrale spatio-temporeel consistente videogeneratie te verkennen

DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation

March 8, 2025
Auteurs: Runze Zhang, Guoguang Du, Xiaochuan Li, Qi Jia, Liang Jin, Lu Liu, Jingjing Wang, Cong Xu, Zhenhua Guo, Yaqian Zhao, Xiaoli Gong, Rengang Li, Baoyu Fan
cs.AI

Samenvatting

Spatio-temporele consistentie is een cruciaal onderzoeksonderwerp in videogeneratie. Een kwalitatief hoogwaardig gegenereerd videofragment moet plotgeloofwaardigheid en samenhang waarborgen terwijl de visuele consistentie van objecten en scènes behouden blijft bij verschillende gezichtspunten. Eerder onderzoek, met name in open-sourceprojecten, richt zich voornamelijk op ofwel temporele ofwel ruimtelijke consistentie, of een basiscombinatie hiervan, zoals het toevoegen van een beschrijving van een camerabeweging na een prompt zonder de uitkomsten van deze beweging te beperken. Echter, camerabeweging kan nieuwe objecten aan de scène toevoegen of bestaande verwijderen, waardoor de voorafgaande narratief wordt overschreven en beïnvloed. Vooral in video's met talrijke camerabewegingen wordt de interactie tussen meerdere plots steeds complexer. Dit artikel introduceert en onderzoekt integrale spatio-temporele consistentie, waarbij de synergie tussen plotvoortgang en cameratechnieken, en de langetermijnimpact van eerder gegenereerde inhoud op latere generatie wordt overwogen. Ons onderzoek omvat de constructie van een dataset tot de ontwikkeling van het model. Aanvankelijk hebben we een DropletVideo-10M dataset geconstrueerd, die bestaat uit 10 miljoen video's met dynamische camerabewegingen en objectacties. Elke video is geannoteerd met een gemiddelde beschrijving van 206 woorden, waarin verschillende camerabewegingen en plotontwikkelingen worden gedetailleerd. Vervolgens hebben we het DropletVideo-model ontwikkeld en getraind, dat uitblinkt in het behouden van spatio-temporele coherentie tijdens videogeneratie. De DropletVideo dataset en het model zijn toegankelijk op https://dropletx.github.io.
English
Spatio-temporal consistency is a critical research topic in video generation. A qualified generated video segment must ensure plot plausibility and coherence while maintaining visual consistency of objects and scenes across varying viewpoints. Prior research, especially in open-source projects, primarily focuses on either temporal or spatial consistency, or their basic combination, such as appending a description of a camera movement after a prompt without constraining the outcomes of this movement. However, camera movement may introduce new objects to the scene or eliminate existing ones, thereby overlaying and affecting the preceding narrative. Especially in videos with numerous camera movements, the interplay between multiple plots becomes increasingly complex. This paper introduces and examines integral spatio-temporal consistency, considering the synergy between plot progression and camera techniques, and the long-term impact of prior content on subsequent generation. Our research encompasses dataset construction through to the development of the model. Initially, we constructed a DropletVideo-10M dataset, which comprises 10 million videos featuring dynamic camera motion and object actions. Each video is annotated with an average caption of 206 words, detailing various camera movements and plot developments. Following this, we developed and trained the DropletVideo model, which excels in preserving spatio-temporal coherence during video generation. The DropletVideo dataset and model are accessible at https://dropletx.github.io.
PDF1382March 18, 2025