DropletVideo: Een dataset en benadering om integrale spatio-temporeel consistente videogeneratie te verkennen
DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation
March 8, 2025
Auteurs: Runze Zhang, Guoguang Du, Xiaochuan Li, Qi Jia, Liang Jin, Lu Liu, Jingjing Wang, Cong Xu, Zhenhua Guo, Yaqian Zhao, Xiaoli Gong, Rengang Li, Baoyu Fan
cs.AI
Samenvatting
Spatio-temporele consistentie is een cruciaal onderzoeksonderwerp in videogeneratie.
Een kwalitatief hoogwaardig gegenereerd videofragment moet plotgeloofwaardigheid en samenhang waarborgen
terwijl de visuele consistentie van objecten en scènes behouden blijft bij verschillende
gezichtspunten. Eerder onderzoek, met name in open-sourceprojecten, richt zich voornamelijk
op ofwel temporele ofwel ruimtelijke consistentie, of een basiscombinatie hiervan,
zoals het toevoegen van een beschrijving van een camerabeweging na een prompt zonder
de uitkomsten van deze beweging te beperken. Echter, camerabeweging kan
nieuwe objecten aan de scène toevoegen of bestaande verwijderen, waardoor
de voorafgaande narratief wordt overschreven en beïnvloed. Vooral in video's met
talrijke camerabewegingen wordt de interactie tussen meerdere plots steeds
complexer. Dit artikel introduceert en onderzoekt integrale
spatio-temporele consistentie, waarbij de synergie tussen plotvoortgang
en cameratechnieken, en de langetermijnimpact van eerder gegenereerde inhoud op latere
generatie wordt overwogen. Ons onderzoek omvat de constructie van een dataset tot de
ontwikkeling van het model. Aanvankelijk hebben we een DropletVideo-10M dataset geconstrueerd,
die bestaat uit 10 miljoen video's met dynamische camerabewegingen en objectacties.
Elke video is geannoteerd met een gemiddelde beschrijving van 206 woorden,
waarin verschillende camerabewegingen en plotontwikkelingen worden gedetailleerd. Vervolgens hebben we
het DropletVideo-model ontwikkeld en getraind, dat uitblinkt in het behouden van
spatio-temporele coherentie tijdens videogeneratie. De DropletVideo dataset en
het model zijn toegankelijk op https://dropletx.github.io.
English
Spatio-temporal consistency is a critical research topic in video generation.
A qualified generated video segment must ensure plot plausibility and coherence
while maintaining visual consistency of objects and scenes across varying
viewpoints. Prior research, especially in open-source projects, primarily
focuses on either temporal or spatial consistency, or their basic combination,
such as appending a description of a camera movement after a prompt without
constraining the outcomes of this movement. However, camera movement may
introduce new objects to the scene or eliminate existing ones, thereby
overlaying and affecting the preceding narrative. Especially in videos with
numerous camera movements, the interplay between multiple plots becomes
increasingly complex. This paper introduces and examines integral
spatio-temporal consistency, considering the synergy between plot progression
and camera techniques, and the long-term impact of prior content on subsequent
generation. Our research encompasses dataset construction through to the
development of the model. Initially, we constructed a DropletVideo-10M dataset,
which comprises 10 million videos featuring dynamic camera motion and object
actions. Each video is annotated with an average caption of 206 words,
detailing various camera movements and plot developments. Following this, we
developed and trained the DropletVideo model, which excels in preserving
spatio-temporal coherence during video generation. The DropletVideo dataset and
model are accessible at https://dropletx.github.io.