Gen-L-Video: Generazione di Video Lunghi da Multi-Testo tramite Co-Denoisizzazione Temporale

Abstract

Sfruttando dataset su larga scala di immagini-testo e i progressi nei modelli di diffusione, i modelli generativi guidati da testo hanno compiuto passi da gigante nel campo della generazione e modifica di immagini. Questo studio esplora il potenziale di estendere la capacità guidata da testo alla generazione e modifica di video lunghi condizionati da più testi. Le metodologie attuali per la generazione e modifica di video, sebbene innovative, sono spesso limitate a video estremamente brevi (tipicamente meno di 24 fotogrammi) e a una singola condizione testuale. Questi vincoli limitano significativamente le loro applicazioni, considerando che i video del mondo reale di solito consistono in più segmenti, ciascuno con informazioni semantiche diverse. Per affrontare questa sfida, introduciamo un nuovo paradigma denominato Gen-L-Video, in grado di estendere i modelli di diffusione per video brevi già esistenti per generare e modificare video composti da centinaia di fotogrammi con segmenti semantici diversi senza introdurre ulteriori addestramenti, preservando al contempo la coerenza del contenuto. Abbiamo implementato tre metodologie principali per la generazione e modifica di video guidati da testo e le abbiamo estese per adattarle a video più lunghi arricchiti da una varietà di segmenti semantici con il nostro paradigma proposto. I risultati sperimentali rivelano che il nostro approccio amplia significativamente le capacità generative e di modifica dei modelli di diffusione per video, offrendo nuove possibilità per future ricerche e applicazioni. Il codice è disponibile all'indirizzo https://github.com/G-U-N/Gen-L-Video.

English

Leveraging large-scale image-text datasets and advancements in diffusion models, text-driven generative models have made remarkable strides in the field of image generation and editing. This study explores the potential of extending the text-driven ability to the generation and editing of multi-text conditioned long videos. Current methodologies for video generation and editing, while innovative, are often confined to extremely short videos (typically less than 24 frames) and are limited to a single text condition. These constraints significantly limit their applications given that real-world videos usually consist of multiple segments, each bearing different semantic information. To address this challenge, we introduce a novel paradigm dubbed as Gen-L-Video, capable of extending off-the-shelf short video diffusion models for generating and editing videos comprising hundreds of frames with diverse semantic segments without introducing additional training, all while preserving content consistency. We have implemented three mainstream text-driven video generation and editing methodologies and extended them to accommodate longer videos imbued with a variety of semantic segments with our proposed paradigm. Our experimental outcomes reveal that our approach significantly broadens the generative and editing capabilities of video diffusion models, offering new possibilities for future research and applications. The code is available at https://github.com/G-U-N/Gen-L-Video.

Gen-L-Video: Generazione di Video Lunghi da Multi-Testo tramite Co-Denoisizzazione Temporale

Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising

Abstract

Support