SmartDirector: Geração de Vídeo Cinematográfico Condicionada por Quadros-Chave com Controle de Ritmo Narrativo

Resumo

A qualidade narrativa de um vídeo determina fundamentalmente seu valor perceptivo. Embora os métodos existentes de geração de vídeo possam produzir conteúdo visualmente atraente, eles dependem predominantemente de sinais de condicionamento esparsos, como prompts de texto ou primeiro/último quadro, o que limita o controle preciso sobre a estrutura narrativa e o ritmo temporal. Neste artigo, propomos o SmartDirector, uma estrutura que aprimora a capacidade narrativa de modelos de geração de vídeo por meio de múltiplos quadros-chave. O SmartDirector suporta cenários flexíveis de geração, incluindo geração de tomada única, síntese narrativa de múltiplas tomadas e extensão de vídeo. A estrutura opera em duas etapas: Director-Gen gera um vídeo de baixa resolução condicionado aos quadros-chave fornecidos, e Director-SR refina a saída explorando quadros-chave de alta resolução como âncoras semânticas para recuperar detalhes refinados. Para permitir um treinamento robusto com múltiplos quadros-chave, construímos um pipeline de dados que seleciona sequências de tomada única e múltiplas tomadas a partir de filmes. Experimentos extensivos demonstram que o SmartDirector supera substancialmente as abordagens de estado da arte existentes. Disponibilizaremos o código para facilitar pesquisas futuras.

English

The narrative quality of a video fundamentally determines its perceptual value. Although existing video generation methods can produce visually appealing content, they predominantly rely on sparse conditioning signals such as text prompts or first/last frames, which limits precise control over narrative structure and temporal pacing. In this paper, we propose SmartDirector, a framework that enhances the narrative capacity of video generation models through multiple keyframes. SmartDirector supports flexible generation scenarios including single-shot generation, multi-shot narrative synthesis, and video extension. The framework operates in two stages: Director-Gen generates a low-resolution video conditioned on the provided keyframes, and Director-SR refines the output by exploiting high-resolution keyframes as semantic anchors to recover fine-grained details. To enable robust multi-keyframe training, we construct a data pipeline that curates single-shot and multi-shot sequences from movies. Extensive experiments demonstrate that SmartDirector substantially outperforms existing state-of-the-art approaches. We will release the code to facilitate further research.