DropletVideo: Un Dataset e un Approccio per Esplorare la Generazione di Video con Coerenza Spazio-Temporale IntegraleDropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal
Consistent Video Generation
La coerenza spazio-temporale è un argomento di ricerca cruciale nella generazione di video. Un segmento video generato di qualità deve garantire la plausibilità e la coerenza della trama, mantenendo al contempo la consistenza visiva degli oggetti e delle scene attraverso diversi punti di vista. Le ricerche precedenti, specialmente nei progetti open-source, si concentrano principalmente sulla coerenza temporale o spaziale, o su una loro combinazione di base, come l'aggiunta di una descrizione del movimento della fotocamera dopo un prompt senza vincolare i risultati di tale movimento. Tuttavia, il movimento della fotocamera può introdurre nuovi oggetti nella scena o eliminare quelli esistenti, sovrapponendosi e influenzando così la narrazione precedente. Specialmente nei video con numerosi movimenti di fotocamera, l'interazione tra più trame diventa sempre più complessa. Questo articolo introduce ed esamina la coerenza spazio-temporale integrale, considerando la sinergia tra lo sviluppo della trama e le tecniche di ripresa, e l'impatto a lungo termine del contenuto precedente sulla generazione successiva. La nostra ricerca comprende la costruzione del dataset fino allo sviluppo del modello. Inizialmente, abbiamo costruito un dataset DropletVideo-10M, che comprende 10 milioni di video con movimenti dinamici della fotocamera e azioni degli oggetti. Ogni video è annotato con una didascalia media di 206 parole, che descrive vari movimenti della fotocamera e sviluppi della trama. Successivamente, abbiamo sviluppato e addestrato il modello DropletVideo, che eccelle nel preservare la coerenza spazio-temporale durante la generazione di video. Il dataset e il modello DropletVideo sono accessibili all'indirizzo https://dropletx.github.io.