ChatPaper.aiChatPaper

VideoGen-of-Thought: Ein kollaboratives Framework für die Generierung von Mehrfachaufnahmen in Videos.

VideoGen-of-Thought: A Collaborative Framework for Multi-Shot Video Generation

December 3, 2024
Autoren: Mingzhe Zheng, Yongqi Xu, Haojian Huang, Xuran Ma, Yexin Liu, Wenjie Shu, Yatian Pang, Feilong Tang, Qifeng Chen, Harry Yang, Ser-Nam Lim
cs.AI

Zusammenfassung

Aktuelle Videogenerierungsmodelle sind hervorragend darin, kurze Clips zu generieren, haben jedoch nach wie vor Schwierigkeiten, mehrschüssige, filmähnliche Videos zu erstellen. Bestehende Modelle, die auf groß angelegten Datensätzen und reichhaltigen Rechenressourcen trainiert wurden, sind wenig überraschend unzureichend, um eine logische Handlung und visuelle Konsistenz über mehrere Aufnahmen eines zusammenhängenden Drehbuchs aufrechtzuerhalten, da sie oft mit einem Einzelaufnahmenziel trainiert werden. Zu diesem Zweck schlagen wir VideoGen-of-Thought (VGoT) vor, eine kollaborative und trainingsfreie Architektur, die speziell für die Generierung von mehrschüssigen Videos entwickelt wurde. VGoT wurde mit drei Zielen entworfen, wie folgt. Generierung von mehrschüssigen Videos: Wir unterteilen den Videogenerierungsprozess in eine strukturierte, modulare Sequenz, einschließlich (1) Drehbuchgenerierung, die eine knappe Geschichte in detaillierte Anweisungen für jede Aufnahme übersetzt; (2) Schlüsselbildgenerierung, die für die Erstellung visuell konsistenter Schlüsselbilder treu zu den Charakterdarstellungen verantwortlich ist; und (3) Aufnahmeebene Videogenerierung, die Informationen aus Drehbüchern und Schlüsselbildern in Aufnahmen umwandelt; (4) Glättungsmechanismus, der eine konsistente mehrschüssige Ausgabe sicherstellt. Angemessenes Erzählungsdesign: Inspiriert von der Drehbuchschreibung im Film erstreckt sich unser Ansatz zur Anweisungsgenerierung über fünf Schlüsselbereiche und gewährleistet logische Konsistenz, Charakterentwicklung und Erzählfluss über das gesamte Video hinweg. Konsistenz zwischen den Aufnahmen: Wir gewährleisten zeitliche und Identitätskonsistenz, indem wir identitätserhaltende (IP) Einbettungen über Aufnahmen hinweg nutzen, die automatisch aus der Erzählung erstellt werden. Darüber hinaus integrieren wir einen Querschnitt-Glättungsmechanismus, der eine Rücksetzgrenze einbezieht, die latenten Merkmale von benachbarten Aufnahmen effektiv kombiniert, was zu sanften Übergängen führt und die visuelle Kohärenz über das gesamte Video hinweg aufrechterhält. Unsere Experimente zeigen, dass VGoT bestehende Methoden zur Videogenerierung in der Produktion hochwertiger, kohärenter, mehrschüssiger Videos übertrifft.
English
Current video generation models excel at generating short clips but still struggle with creating multi-shot, movie-like videos. Existing models trained on large-scale data on the back of rich computational resources are unsurprisingly inadequate for maintaining a logical storyline and visual consistency across multiple shots of a cohesive script since they are often trained with a single-shot objective. To this end, we propose VideoGen-of-Thought (VGoT), a collaborative and training-free architecture designed specifically for multi-shot video generation. VGoT is designed with three goals in mind as follows. Multi-Shot Video Generation: We divide the video generation process into a structured, modular sequence, including (1) Script Generation, which translates a curt story into detailed prompts for each shot; (2) Keyframe Generation, responsible for creating visually consistent keyframes faithful to character portrayals; and (3) Shot-Level Video Generation, which transforms information from scripts and keyframes into shots; (4) Smoothing Mechanism that ensures a consistent multi-shot output. Reasonable Narrative Design: Inspired by cinematic scriptwriting, our prompt generation approach spans five key domains, ensuring logical consistency, character development, and narrative flow across the entire video. Cross-Shot Consistency: We ensure temporal and identity consistency by leveraging identity-preserving (IP) embeddings across shots, which are automatically created from the narrative. Additionally, we incorporate a cross-shot smoothing mechanism, which integrates a reset boundary that effectively combines latent features from adjacent shots, resulting in smooth transitions and maintaining visual coherence throughout the video. Our experiments demonstrate that VGoT surpasses existing video generation methods in producing high-quality, coherent, multi-shot videos.

Summary

AI-Generated Summary

PDF605December 4, 2024