VideoGen-de-Pensamiento: Un Marco Colaborativo para la Generación de Videos de Múltiples Tomas
VideoGen-of-Thought: A Collaborative Framework for Multi-Shot Video Generation
December 3, 2024
Autores: Mingzhe Zheng, Yongqi Xu, Haojian Huang, Xuran Ma, Yexin Liu, Wenjie Shu, Yatian Pang, Feilong Tang, Qifeng Chen, Harry Yang, Ser-Nam Lim
cs.AI
Resumen
Los modelos actuales de generación de video destacan en la creación de clips cortos pero aún tienen dificultades para producir videos con múltiples tomas, similares a películas. Los modelos existentes, entrenados con grandes conjuntos de datos y recursos computacionales abundantes, resultan insuficientes para mantener una trama lógica y coherencia visual a lo largo de múltiples tomas de un guion cohesivo, ya que a menudo son entrenados con un objetivo de una sola toma. Con este fin, proponemos VideoGen-of-Thought (VGoT), una arquitectura colaborativa y libre de entrenamiento diseñada específicamente para la generación de videos con múltiples tomas. VGoT se ha diseñado con tres objetivos en mente de la siguiente manera. Generación de Video con Múltiples Tomas: Dividimos el proceso de generación de video en una secuencia estructurada y modular, que incluye (1) Generación de Guion, que traduce una historia concisa en indicaciones detalladas para cada toma; (2) Generación de Fotogramas Clave, responsable de crear fotogramas clave visualmente consistentes fieles a las representaciones de los personajes; y (3) Generación de Video a Nivel de Toma, que transforma la información de los guiones y fotogramas clave en tomas; (4) Mecanismo de Suavizado que garantiza una salida con múltiples tomas consistente. Diseño Narrativo Razonable: Inspirados en la escritura de guiones cinematográficos, nuestro enfoque de generación de indicaciones abarca cinco dominios clave, asegurando coherencia lógica, desarrollo de personajes y flujo narrativo a lo largo de todo el video. Coherencia entre Tomas: Garantizamos la consistencia temporal e identitaria mediante el aprovechamiento de incrustaciones preservadoras de identidad (IP) entre tomas, que se crean automáticamente a partir de la narrativa. Además, incorporamos un mecanismo de suavizado entre tomas, que integra un límite de reinicio que combina de manera efectiva características latentes de tomas adyacentes, resultando en transiciones suaves y manteniendo la coherencia visual a lo largo del video. Nuestros experimentos demuestran que VGoT supera a los métodos existentes de generación de video al producir videos con múltiples tomas de alta calidad y coherentes.
English
Current video generation models excel at generating short clips but still
struggle with creating multi-shot, movie-like videos. Existing models trained
on large-scale data on the back of rich computational resources are
unsurprisingly inadequate for maintaining a logical storyline and visual
consistency across multiple shots of a cohesive script since they are often
trained with a single-shot objective. To this end, we propose
VideoGen-of-Thought (VGoT), a collaborative and training-free architecture
designed specifically for multi-shot video generation. VGoT is designed with
three goals in mind as follows. Multi-Shot Video Generation: We divide the
video generation process into a structured, modular sequence, including (1)
Script Generation, which translates a curt story into detailed prompts for each
shot; (2) Keyframe Generation, responsible for creating visually consistent
keyframes faithful to character portrayals; and (3) Shot-Level Video
Generation, which transforms information from scripts and keyframes into shots;
(4) Smoothing Mechanism that ensures a consistent multi-shot output. Reasonable
Narrative Design: Inspired by cinematic scriptwriting, our prompt generation
approach spans five key domains, ensuring logical consistency, character
development, and narrative flow across the entire video. Cross-Shot
Consistency: We ensure temporal and identity consistency by leveraging
identity-preserving (IP) embeddings across shots, which are automatically
created from the narrative. Additionally, we incorporate a cross-shot smoothing
mechanism, which integrates a reset boundary that effectively combines latent
features from adjacent shots, resulting in smooth transitions and maintaining
visual coherence throughout the video. Our experiments demonstrate that VGoT
surpasses existing video generation methods in producing high-quality,
coherent, multi-shot videos.Summary
AI-Generated Summary