DropletVideo: Un Dataset e un Approccio per Esplorare la Generazione di Video con Coerenza Spazio-Temporale Integrale
DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation
March 8, 2025
Autori: Runze Zhang, Guoguang Du, Xiaochuan Li, Qi Jia, Liang Jin, Lu Liu, Jingjing Wang, Cong Xu, Zhenhua Guo, Yaqian Zhao, Xiaoli Gong, Rengang Li, Baoyu Fan
cs.AI
Abstract
La coerenza spazio-temporale è un argomento di ricerca cruciale nella generazione di video. Un segmento video generato di qualità deve garantire la plausibilità e la coerenza della trama, mantenendo al contempo la consistenza visiva degli oggetti e delle scene attraverso diversi punti di vista. Le ricerche precedenti, specialmente nei progetti open-source, si concentrano principalmente sulla coerenza temporale o spaziale, o su una loro combinazione di base, come l'aggiunta di una descrizione del movimento della fotocamera dopo un prompt senza vincolare i risultati di tale movimento. Tuttavia, il movimento della fotocamera può introdurre nuovi oggetti nella scena o eliminare quelli esistenti, sovrapponendosi e influenzando così la narrazione precedente. Specialmente nei video con numerosi movimenti di fotocamera, l'interazione tra più trame diventa sempre più complessa. Questo articolo introduce ed esamina la coerenza spazio-temporale integrale, considerando la sinergia tra lo sviluppo della trama e le tecniche di ripresa, e l'impatto a lungo termine del contenuto precedente sulla generazione successiva. La nostra ricerca comprende la costruzione del dataset fino allo sviluppo del modello. Inizialmente, abbiamo costruito un dataset DropletVideo-10M, che comprende 10 milioni di video con movimenti dinamici della fotocamera e azioni degli oggetti. Ogni video è annotato con una didascalia media di 206 parole, che descrive vari movimenti della fotocamera e sviluppi della trama. Successivamente, abbiamo sviluppato e addestrato il modello DropletVideo, che eccelle nel preservare la coerenza spazio-temporale durante la generazione di video. Il dataset e il modello DropletVideo sono accessibili all'indirizzo https://dropletx.github.io.
English
Spatio-temporal consistency is a critical research topic in video generation.
A qualified generated video segment must ensure plot plausibility and coherence
while maintaining visual consistency of objects and scenes across varying
viewpoints. Prior research, especially in open-source projects, primarily
focuses on either temporal or spatial consistency, or their basic combination,
such as appending a description of a camera movement after a prompt without
constraining the outcomes of this movement. However, camera movement may
introduce new objects to the scene or eliminate existing ones, thereby
overlaying and affecting the preceding narrative. Especially in videos with
numerous camera movements, the interplay between multiple plots becomes
increasingly complex. This paper introduces and examines integral
spatio-temporal consistency, considering the synergy between plot progression
and camera techniques, and the long-term impact of prior content on subsequent
generation. Our research encompasses dataset construction through to the
development of the model. Initially, we constructed a DropletVideo-10M dataset,
which comprises 10 million videos featuring dynamic camera motion and object
actions. Each video is annotated with an average caption of 206 words,
detailing various camera movements and plot developments. Following this, we
developed and trained the DropletVideo model, which excels in preserving
spatio-temporal coherence during video generation. The DropletVideo dataset and
model are accessible at https://dropletx.github.io.