DreamRunner: Генерация видео с тонкой детализацией повествования с помощью адаптации движения с увеличением поиска.
DreamRunner: Fine-Grained Storytelling Video Generation with Retrieval-Augmented Motion Adaptation
November 25, 2024
Авторы: Zun Wang, Jialu Li, Han Lin, Jaehong Yoon, Mohit Bansal
cs.AI
Аннотация
Генерация видео повествования (SVG) недавно появилась как задача создания длинных, многодвижущихся, многоплановых видеороликов, которые последовательно отображают историю, описанную во входном текстовом сценарии. SVG имеет большой потенциал для разнообразного контентного создания в медиа и развлекательной индустрии; однако он также представляет существенные вызовы: (1) объекты должны демонстрировать широкий спектр тонких, сложных движений, (2) несколько объектов должны появляться последовательно в разных сценах, и (3) субъекты могут требовать несколько движений с плавными переходами внутри одной сцены. Для решения этих проблем мы предлагаем DreamRunner, новый метод генерации видео по сюжету: Сначала мы структурируем входной сценарий с использованием большой языковой модели (LLM) для облегчения как грубого планирования сцены, так и тонкой планировки макета объектов и движений. Затем DreamRunner представляет адаптацию на основе поиска для захвата целевых движений объектов в каждой сцене, поддерживая разнообразную настройку движения на основе найденных видеороликов, тем самым облегчая создание новых видео с сложными, сценарными движениями. Наконец, мы предлагаем новый модуль внимания на основе пространственно-временных регионов 3D и инъекции приоритетов SR3AI для тонкой привязки объектов к движению и семантического управления кадр за кадром. Мы сравниваем DreamRunner с различными базовыми моделями SVG, демонстрируя передовую производительность в согласованности персонажей, выравнивании текста и плавных переходах. Кроме того, DreamRunner проявляет сильную способность к тонкому следованию условиям в композиционной генерации текста в видео, значительно превосходя базовые модели на T2V-ComBench. Наконец, мы подтверждаем надежную способность DreamRunner генерировать взаимодействия между несколькими объектами на качественных примерах.
English
Storytelling video generation (SVG) has recently emerged as a task to create
long, multi-motion, multi-scene videos that consistently represent the story
described in the input text script. SVG holds great potential for diverse
content creation in media and entertainment; however, it also presents
significant challenges: (1) objects must exhibit a range of fine-grained,
complex motions, (2) multiple objects need to appear consistently across
scenes, and (3) subjects may require multiple motions with seamless transitions
within a single scene. To address these challenges, we propose DreamRunner, a
novel story-to-video generation method: First, we structure the input script
using a large language model (LLM) to facilitate both coarse-grained scene
planning as well as fine-grained object-level layout and motion planning. Next,
DreamRunner presents retrieval-augmented test-time adaptation to capture target
motion priors for objects in each scene, supporting diverse motion
customization based on retrieved videos, thus facilitating the generation of
new videos with complex, scripted motions. Lastly, we propose a novel
spatial-temporal region-based 3D attention and prior injection module SR3AI for
fine-grained object-motion binding and frame-by-frame semantic control. We
compare DreamRunner with various SVG baselines, demonstrating state-of-the-art
performance in character consistency, text alignment, and smooth transitions.
Additionally, DreamRunner exhibits strong fine-grained condition-following
ability in compositional text-to-video generation, significantly outperforming
baselines on T2V-ComBench. Finally, we validate DreamRunner's robust ability to
generate multi-object interactions with qualitative examples.Summary
AI-Generated Summary