ChatPaper.aiChatPaper

VideoGen-do-Pensamento: Um Framework Colaborativo para Geração de Vídeo de Múltiplos Disparos

VideoGen-of-Thought: A Collaborative Framework for Multi-Shot Video Generation

December 3, 2024
Autores: Mingzhe Zheng, Yongqi Xu, Haojian Huang, Xuran Ma, Yexin Liu, Wenjie Shu, Yatian Pang, Feilong Tang, Qifeng Chen, Harry Yang, Ser-Nam Lim
cs.AI

Resumo

Os modelos atuais de geração de vídeo se destacam na criação de clipes curtos, mas ainda enfrentam dificuldades em produzir vídeos com múltiplos planos, semelhantes a filmes. Os modelos existentes, treinados em dados em larga escala com o suporte de recursos computacionais robustos, são inadequados para manter uma narrativa lógica e consistência visual em vários planos de um roteiro coeso, uma vez que frequentemente são treinados com um objetivo de um único plano. Nesse sentido, propomos o VideoGen-of-Thought (VGoT), uma arquitetura colaborativa e sem necessidade de treinamento, projetada especificamente para a geração de vídeos com múltiplos planos. O VGoT é concebido com três objetivos em mente da seguinte forma. Geração de Vídeo com Múltiplos Planos: Dividimos o processo de geração de vídeo em uma sequência estruturada e modular, incluindo (1) Geração de Roteiro, que traduz uma história concisa em instruções detalhadas para cada plano; (2) Geração de Quadros-Chave, responsável por criar quadros-chave visualmente consistentes fiéis às representações dos personagens; e (3) Geração de Vídeo em Nível de Plano, que transforma informações dos roteiros e quadros-chave em planos; (4) Mecanismo de Suavização que garante uma saída de múltiplos planos consistente. Design Narrativo Razoável: Inspirado na escrita de roteiros cinematográficos, nossa abordagem de geração de instruções abrange cinco domínios-chave, garantindo consistência lógica, desenvolvimento de personagens e fluidez narrativa em todo o vídeo. Consistência entre Planos: Garantimos consistência temporal e de identidade ao alavancar embeddings preservadores de identidade (IP) entre planos, que são criados automaticamente a partir da narrativa. Adicionalmente, incorporamos um mecanismo de suavização entre planos, que integra um limite de reinício que combina efetivamente características latentes de planos adjacentes, resultando em transições suaves e mantendo a coerência visual ao longo do vídeo. Nossos experimentos demonstram que o VGoT supera os métodos existentes de geração de vídeo na produção de vídeos com múltiplos planos de alta qualidade e coerentes.
English
Current video generation models excel at generating short clips but still struggle with creating multi-shot, movie-like videos. Existing models trained on large-scale data on the back of rich computational resources are unsurprisingly inadequate for maintaining a logical storyline and visual consistency across multiple shots of a cohesive script since they are often trained with a single-shot objective. To this end, we propose VideoGen-of-Thought (VGoT), a collaborative and training-free architecture designed specifically for multi-shot video generation. VGoT is designed with three goals in mind as follows. Multi-Shot Video Generation: We divide the video generation process into a structured, modular sequence, including (1) Script Generation, which translates a curt story into detailed prompts for each shot; (2) Keyframe Generation, responsible for creating visually consistent keyframes faithful to character portrayals; and (3) Shot-Level Video Generation, which transforms information from scripts and keyframes into shots; (4) Smoothing Mechanism that ensures a consistent multi-shot output. Reasonable Narrative Design: Inspired by cinematic scriptwriting, our prompt generation approach spans five key domains, ensuring logical consistency, character development, and narrative flow across the entire video. Cross-Shot Consistency: We ensure temporal and identity consistency by leveraging identity-preserving (IP) embeddings across shots, which are automatically created from the narrative. Additionally, we incorporate a cross-shot smoothing mechanism, which integrates a reset boundary that effectively combines latent features from adjacent shots, resulting in smooth transitions and maintaining visual coherence throughout the video. Our experiments demonstrate that VGoT surpasses existing video generation methods in producing high-quality, coherent, multi-shot videos.

Summary

AI-Generated Summary

PDF605December 4, 2024