DropletVideo: Een dataset en benadering om integrale spatio-temporeel consistente videogeneratie te verkennenDropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal
Consistent Video Generation
Spatio-temporele consistentie is een cruciaal onderzoeksonderwerp in videogeneratie. Een kwalitatief hoogwaardig gegenereerd videofragment moet plotgeloofwaardigheid en samenhang waarborgen terwijl de visuele consistentie van objecten en scènes behouden blijft bij verschillende gezichtspunten. Eerder onderzoek, met name in open-sourceprojecten, richt zich voornamelijk op ofwel temporele ofwel ruimtelijke consistentie, of een basiscombinatie hiervan, zoals het toevoegen van een beschrijving van een camerabeweging na een prompt zonder de uitkomsten van deze beweging te beperken. Echter, camerabeweging kan nieuwe objecten aan de scène toevoegen of bestaande verwijderen, waardoor de voorafgaande narratief wordt overschreven en beïnvloed. Vooral in video's met talrijke camerabewegingen wordt de interactie tussen meerdere plots steeds complexer. Dit artikel introduceert en onderzoekt integrale spatio-temporele consistentie, waarbij de synergie tussen plotvoortgang en cameratechnieken, en de langetermijnimpact van eerder gegenereerde inhoud op latere generatie wordt overwogen. Ons onderzoek omvat de constructie van een dataset tot de ontwikkeling van het model. Aanvankelijk hebben we een DropletVideo-10M dataset geconstrueerd, die bestaat uit 10 miljoen video's met dynamische camerabewegingen en objectacties. Elke video is geannoteerd met een gemiddelde beschrijving van 206 woorden, waarin verschillende camerabewegingen en plotontwikkelingen worden gedetailleerd. Vervolgens hebben we het DropletVideo-model ontwikkeld en getraind, dat uitblinkt in het behouden van spatio-temporele coherentie tijdens videogeneratie. De DropletVideo dataset en het model zijn toegankelijk op https://dropletx.github.io.