MultiShotMaster: Uma Estrutura Controlável para Geração de Vídeos com Múltiplos Planos

Resumo

As técnicas atuais de geração de vídeo se destacam na produção de clipes únicos, mas lutam para criar vídeos narrativos com múltiplos planos, que exigem arranjo flexível de cenas, narrativa coerente e controlabilidade além dos prompts de texto. Para enfrentar esses desafios, propomos o MultiShotMaster, uma estrutura para geração de vídeos com múltiplos planos altamente controlável. Estendemos um modelo pré-treinado de plano único integrando duas novas variantes de RoPE. Primeiro, introduzimos o RoPE Narrativo de Múltiplos Planos, que aplica um deslocamento de fase explícito nas transições de cena, permitindo um arranjo flexível de planos enquanto preserva a ordem narrativa temporal. Segundo, projetamos o RoPE Consciente da Posição Espaço-Temporal para incorporar tokens de referência e sinais de ancoragem, permitindo a injeção de referência ancorada espaço-temporalmente. Adicionalmente, para superar a escassez de dados, estabelecemos um pipeline automatizado de anotação para extrair vídeos de múltiplos planos, legendas, sinais de ancoragem entre planos e imagens de referência. Nossa estrutura aproveita as propriedades arquitetônicas intrínsecas para suportar a geração de vídeos multi-plano, apresentando consistência inter-planos dirigida por texto, sujeitos personalizados com controle de movimento e cenários personalizados dirigidos por fundo. Tanto a contagem de planos quanto a duração são flexivelmente configuráveis. Experimentos extensivos demonstram o desempenho superior e a controlabilidade excepcional de nossa estrutura.

English

Current video generation techniques excel at single-shot clips but struggle to produce narrative multi-shot videos, which require flexible shot arrangement, coherent narrative, and controllability beyond text prompts. To tackle these challenges, we propose MultiShotMaster, a framework for highly controllable multi-shot video generation. We extend a pretrained single-shot model by integrating two novel variants of RoPE. First, we introduce Multi-Shot Narrative RoPE, which applies explicit phase shift at shot transitions, enabling flexible shot arrangement while preserving the temporal narrative order. Second, we design Spatiotemporal Position-Aware RoPE to incorporate reference tokens and grounding signals, enabling spatiotemporal-grounded reference injection. In addition, to overcome data scarcity, we establish an automated data annotation pipeline to extract multi-shot videos, captions, cross-shot grounding signals and reference images. Our framework leverages the intrinsic architectural properties to support multi-shot video generation, featuring text-driven inter-shot consistency, customized subject with motion control, and background-driven customized scene. Both shot count and duration are flexibly configurable. Extensive experiments demonstrate the superior performance and outstanding controllability of our framework.

MultiShotMaster: Uma Estrutura Controlável para Geração de Vídeos com Múltiplos Planos

MultiShotMaster: A Controllable Multi-Shot Video Generation Framework

Resumo

Support