ChatPaper.aiChatPaper

VideoGen-de-la-Pensée : Un Cadre Collaboratif pour la Génération de Vidéos Multi-Shots

VideoGen-of-Thought: A Collaborative Framework for Multi-Shot Video Generation

December 3, 2024
Auteurs: Mingzhe Zheng, Yongqi Xu, Haojian Huang, Xuran Ma, Yexin Liu, Wenjie Shu, Yatian Pang, Feilong Tang, Qifeng Chen, Harry Yang, Ser-Nam Lim
cs.AI

Résumé

Les modèles actuels de génération de vidéos excellent dans la création de courtes séquences mais rencontrent encore des difficultés pour produire des vidéos multi-plans ressemblant à des films. Les modèles existants, entraînés sur des ensembles de données à grande échelle à l'aide de ressources computationnelles riches, s'avèrent logiquement inadaptés pour maintenir une intrigue cohérente et une cohérence visuelle à travers plusieurs plans d'un scénario cohérent, étant souvent entraînés avec un objectif d'un seul plan. Dans cette optique, nous proposons VideoGen-of-Thought (VGoT), une architecture collaborative et sans entraînement conçue spécifiquement pour la génération de vidéos multi-plans. VGoT est conçu avec trois objectifs en tête. Génération de Vidéos Multi-Plans : Nous divisons le processus de génération de vidéos en une séquence structurée et modulaire, comprenant (1) la Génération de Scénario, qui traduit une histoire succincte en directives détaillées pour chaque plan ; (2) la Génération de Keyframes, responsable de créer des keyframes visuellement cohérents fidèles aux représentations des personnages ; et (3) la Génération de Vidéos au Niveau du Plan, qui transforme les informations des scénarios et des keyframes en plans ; (4) un Mécanisme de Lissage qui garantit une sortie multi-plans cohérente. Conception Narrative Raisonnable : Inspirée par l'écriture de scénarios cinématographiques, notre approche de génération de directives couvre cinq domaines clés, assurant une cohérence logique, le développement des personnages et le flux narratif sur l'ensemble de la vidéo. Cohérence Entre Plans : Nous assurons une cohérence temporelle et d'identité en exploitant des plongements préservant l'identité (IP) à travers les plans, qui sont automatiquement créés à partir du récit. De plus, nous incorporons un mécanisme de lissage entre plans, qui intègre une frontière de réinitialisation combinant efficacement les caractéristiques latentes des plans adjacents, résultant en des transitions fluides et en maintenant la cohérence visuelle tout au long de la vidéo. Nos expériences démontrent que VGoT surpasse les méthodes existantes de génération de vidéos en produisant des vidéos multi-plans de haute qualité et cohérentes.
English
Current video generation models excel at generating short clips but still struggle with creating multi-shot, movie-like videos. Existing models trained on large-scale data on the back of rich computational resources are unsurprisingly inadequate for maintaining a logical storyline and visual consistency across multiple shots of a cohesive script since they are often trained with a single-shot objective. To this end, we propose VideoGen-of-Thought (VGoT), a collaborative and training-free architecture designed specifically for multi-shot video generation. VGoT is designed with three goals in mind as follows. Multi-Shot Video Generation: We divide the video generation process into a structured, modular sequence, including (1) Script Generation, which translates a curt story into detailed prompts for each shot; (2) Keyframe Generation, responsible for creating visually consistent keyframes faithful to character portrayals; and (3) Shot-Level Video Generation, which transforms information from scripts and keyframes into shots; (4) Smoothing Mechanism that ensures a consistent multi-shot output. Reasonable Narrative Design: Inspired by cinematic scriptwriting, our prompt generation approach spans five key domains, ensuring logical consistency, character development, and narrative flow across the entire video. Cross-Shot Consistency: We ensure temporal and identity consistency by leveraging identity-preserving (IP) embeddings across shots, which are automatically created from the narrative. Additionally, we incorporate a cross-shot smoothing mechanism, which integrates a reset boundary that effectively combines latent features from adjacent shots, resulting in smooth transitions and maintaining visual coherence throughout the video. Our experiments demonstrate that VGoT surpasses existing video generation methods in producing high-quality, coherent, multi-shot videos.

Summary

AI-Generated Summary

PDF605December 4, 2024