VideoGen-of-Thought: Een Samenwerkingsraamwerk voor het Genereren van Video's met Meerdere Shots
VideoGen-of-Thought: A Collaborative Framework for Multi-Shot Video Generation
December 3, 2024
Auteurs: Mingzhe Zheng, Yongqi Xu, Haojian Huang, Xuran Ma, Yexin Liu, Wenjie Shu, Yatian Pang, Feilong Tang, Qifeng Chen, Harry Yang, Ser-Nam Lim
cs.AI
Samenvatting
Huidige videogeneratiemodellen blinken uit in het genereren van korte clips, maar hebben nog steeds moeite met het maken van meerdelige, filmachtige video's. Bestaande modellen die zijn getraind op grootschalige gegevens met behulp van rijke rekenbronnen, zijn begrijpelijkerwijs ontoereikend voor het handhaven van een logisch verhaal en visuele consistentie over meerdere shots van een samenhangend script, aangezien ze vaak zijn getraind met een single-shot doelstelling. Om dit te verhelpen, stellen wij VideoGen-of-Thought (VGoT) voor, een samenwerkings- en trainingvrije architectuur die specifiek is ontworpen voor het genereren van meerdelige video's. VGoT is ontworpen met drie doelen in gedachten als volgt. Meerdelige Videogeneratie: We verdelen het videogeneratieproces in een gestructureerde, modulaire reeks, inclusief (1) Scriptgeneratie, die een beknopt verhaal vertaalt naar gedetailleerde aanwijzingen voor elk shot; (2) Keyframegeneratie, verantwoordelijk voor het creëren van visueel consistente keyframes die trouw zijn aan de karakterportretten; en (3) Shot-Level Videogeneratie, die informatie uit scripts en keyframes omzet in shots; (4) Mechanisme voor het gladstrijken dat zorgt voor een consistente meerdelige output. Redelijke Narratieve Ontwerp: Geïnspireerd door cinematografisch scenarioschrijven, bestrijkt onze aanpak voor promptgeneratie vijf belangrijke domeinen, waarbij logische consistentie, karakterontwikkeling en narratieve flow over de hele video worden gewaarborgd. Cross-Shot Consistentie: We zorgen voor temporele en identiteitsconsistentie door gebruik te maken van identiteitsbehoudende (IP) embeddings over shots, die automatisch worden gecreëerd uit het verhaal. Daarnaast nemen we een cross-shot gladstrijkmechanisme op, dat een resetgrens integreert die effectief latente kenmerken van aangrenzende shots combineert, resulterend in soepele overgangen en het handhaven van visuele coherentie gedurende de video. Onze experimenten tonen aan dat VGoT bestaande methoden voor videogeneratie overtreft in het produceren van hoogwaardige, coherente, meerdelige video's.
English
Current video generation models excel at generating short clips but still
struggle with creating multi-shot, movie-like videos. Existing models trained
on large-scale data on the back of rich computational resources are
unsurprisingly inadequate for maintaining a logical storyline and visual
consistency across multiple shots of a cohesive script since they are often
trained with a single-shot objective. To this end, we propose
VideoGen-of-Thought (VGoT), a collaborative and training-free architecture
designed specifically for multi-shot video generation. VGoT is designed with
three goals in mind as follows. Multi-Shot Video Generation: We divide the
video generation process into a structured, modular sequence, including (1)
Script Generation, which translates a curt story into detailed prompts for each
shot; (2) Keyframe Generation, responsible for creating visually consistent
keyframes faithful to character portrayals; and (3) Shot-Level Video
Generation, which transforms information from scripts and keyframes into shots;
(4) Smoothing Mechanism that ensures a consistent multi-shot output. Reasonable
Narrative Design: Inspired by cinematic scriptwriting, our prompt generation
approach spans five key domains, ensuring logical consistency, character
development, and narrative flow across the entire video. Cross-Shot
Consistency: We ensure temporal and identity consistency by leveraging
identity-preserving (IP) embeddings across shots, which are automatically
created from the narrative. Additionally, we incorporate a cross-shot smoothing
mechanism, which integrates a reset boundary that effectively combines latent
features from adjacent shots, resulting in smooth transitions and maintaining
visual coherence throughout the video. Our experiments demonstrate that VGoT
surpasses existing video generation methods in producing high-quality,
coherent, multi-shot videos.