ChatPaper.aiChatPaper

VideoGen-of-Thought: Совместная платформа для генерации многоснимковых видео.

VideoGen-of-Thought: A Collaborative Framework for Multi-Shot Video Generation

December 3, 2024
Авторы: Mingzhe Zheng, Yongqi Xu, Haojian Huang, Xuran Ma, Yexin Liu, Wenjie Shu, Yatian Pang, Feilong Tang, Qifeng Chen, Harry Yang, Ser-Nam Lim
cs.AI

Аннотация

Существующие модели генерации видео отлично справляются с созданием коротких клипов, но все еще испытывают трудности с созданием многоснимочных видеороликов, напоминающих фильмы. Существующие модели, обученные на масштабных данных при наличии обширных вычислительных ресурсов, предсказуемо недостаточны для поддержания логической сюжетной линии и визуальной последовательности через несколько съемок в едином сценарии, поскольку их часто обучают с одним целевым снимком. В этой связи мы предлагаем VideoGen-of-Thought (VGoT), сотрудничающую и не требующую обучения архитектуру, специально разработанную для генерации многоснимочных видеороликов. VGoT разработана с тремя целями: Генерация Многоснимочных Видео: Мы разделяем процесс генерации видео на структурированную, модульную последовательность, включая (1) Генерацию Сценария, которая переводит краткую историю в подробные подсказки для каждой съемки; (2) Генерацию Ключевых Кадров, ответственных за создание визуально последовательных ключевых кадров, соответствующих характерным чертам персонажей; и (3) Генерацию Видео на Уровне Съемки, которая преобразует информацию из сценариев и ключевых кадров в съемки; (4) Механизм Сглаживания, который обеспечивает последовательный многоснимочный результат. Логическое Конструирование Сюжета: Вдохновленные кинематографическим сценарным письмом, наш подход к генерации подсказок охватывает пять ключевых областей, обеспечивая логическую последовательность, развитие персонажей и сюжетный поток на протяжении всего видео. Поддержание Последовательности Между Съемками: Мы обеспечиваем временную и идентичностную последовательность, используя сохраняющие идентичность (IP) вложения между съемками, которые автоматически создаются из сюжета. Кроме того, мы включаем механизм сглаживания между съемками, который интегрирует границу сброса, эффективно объединяющую латентные признаки смежных съемок, что приводит к плавным переходам и поддержанию визуальной согласованности на протяжении всего видео. Наши эксперименты показывают, что VGoT превосходит существующие методы генерации видео в создании высококачественных, последовательных многоснимочных видеороликов.
English
Current video generation models excel at generating short clips but still struggle with creating multi-shot, movie-like videos. Existing models trained on large-scale data on the back of rich computational resources are unsurprisingly inadequate for maintaining a logical storyline and visual consistency across multiple shots of a cohesive script since they are often trained with a single-shot objective. To this end, we propose VideoGen-of-Thought (VGoT), a collaborative and training-free architecture designed specifically for multi-shot video generation. VGoT is designed with three goals in mind as follows. Multi-Shot Video Generation: We divide the video generation process into a structured, modular sequence, including (1) Script Generation, which translates a curt story into detailed prompts for each shot; (2) Keyframe Generation, responsible for creating visually consistent keyframes faithful to character portrayals; and (3) Shot-Level Video Generation, which transforms information from scripts and keyframes into shots; (4) Smoothing Mechanism that ensures a consistent multi-shot output. Reasonable Narrative Design: Inspired by cinematic scriptwriting, our prompt generation approach spans five key domains, ensuring logical consistency, character development, and narrative flow across the entire video. Cross-Shot Consistency: We ensure temporal and identity consistency by leveraging identity-preserving (IP) embeddings across shots, which are automatically created from the narrative. Additionally, we incorporate a cross-shot smoothing mechanism, which integrates a reset boundary that effectively combines latent features from adjacent shots, resulting in smooth transitions and maintaining visual coherence throughout the video. Our experiments demonstrate that VGoT surpasses existing video generation methods in producing high-quality, coherent, multi-shot videos.

Summary

AI-Generated Summary

PDF605December 4, 2024