DreamRunner: Geração de Vídeo de Narrativa Detalhada com Adaptação de Movimento Aprimorada por Recuperação

Resumo

A geração de vídeos de narrativa (SVG) surgiu recentemente como uma tarefa para criar vídeos longos, com múltiplos movimentos e cenas que representam consistentemente a história descrita no roteiro de texto de entrada. O SVG possui um grande potencial para a criação de conteúdo diversificado em mídia e entretenimento; no entanto, também apresenta desafios significativos: (1) os objetos devem exibir uma variedade de movimentos complexos e detalhados, (2) múltiplos objetos precisam aparecer consistentemente em diferentes cenas e (3) os sujeitos podem exigir múltiplos movimentos com transições suaves dentro de uma única cena. Para enfrentar esses desafios, propomos o DreamRunner, um novo método de geração de vídeo a partir de histórias: Primeiramente, estruturamos o roteiro de entrada usando um grande modelo de linguagem (LLM) para facilitar tanto o planejamento de cena em nível grosseiro quanto o planejamento de layout e movimento em nível de objeto detalhado. Em seguida, o DreamRunner apresenta adaptação de teste com recuperação aumentada para capturar prioridades de movimento alvo para objetos em cada cena, apoiando a personalização de movimento diversificada com base em vídeos recuperados, facilitando assim a geração de novos vídeos com movimentos complexos e roteirizados. Por fim, propomos um novo módulo de atenção 3D baseado em regiões espaço-temporais e injeção de prioridades SR3AI para vinculação de movimento de objeto detalhado e controle semântico quadro a quadro. Comparamos o DreamRunner com várias bases de linha SVG, demonstrando um desempenho de ponta em consistência de personagens, alinhamento de texto e transições suaves. Além disso, o DreamRunner exibe uma forte capacidade de seguir condições detalhadas na geração composicional de texto para vídeo, superando significativamente as bases no T2V-ComBench. Por fim, validamos a capacidade robusta do DreamRunner em gerar interações multi-objetos com exemplos qualitativos.

English

Storytelling video generation (SVG) has recently emerged as a task to create long, multi-motion, multi-scene videos that consistently represent the story described in the input text script. SVG holds great potential for diverse content creation in media and entertainment; however, it also presents significant challenges: (1) objects must exhibit a range of fine-grained, complex motions, (2) multiple objects need to appear consistently across scenes, and (3) subjects may require multiple motions with seamless transitions within a single scene. To address these challenges, we propose DreamRunner, a novel story-to-video generation method: First, we structure the input script using a large language model (LLM) to facilitate both coarse-grained scene planning as well as fine-grained object-level layout and motion planning. Next, DreamRunner presents retrieval-augmented test-time adaptation to capture target motion priors for objects in each scene, supporting diverse motion customization based on retrieved videos, thus facilitating the generation of new videos with complex, scripted motions. Lastly, we propose a novel spatial-temporal region-based 3D attention and prior injection module SR3AI for fine-grained object-motion binding and frame-by-frame semantic control. We compare DreamRunner with various SVG baselines, demonstrating state-of-the-art performance in character consistency, text alignment, and smooth transitions. Additionally, DreamRunner exhibits strong fine-grained condition-following ability in compositional text-to-video generation, significantly outperforming baselines on T2V-ComBench. Finally, we validate DreamRunner's robust ability to generate multi-object interactions with qualitative examples.

DreamRunner: Geração de Vídeo de Narrativa Detalhada com Adaptação de Movimento Aprimorada por Recuperação

DreamRunner: Fine-Grained Storytelling Video Generation with Retrieval-Augmented Motion Adaptation

Resumo

Support