SmartDirector: Geração de Vídeo Cinematográfico Condicionada por Quadros-Chave com Controle de Ritmo Narrativo
SmartDirector: Keyframe-Conditioned Cinematic Video Generation with Narrative Pacing Control
May 27, 2026
Autores: Zhida Zhang, Jie Ma, Zhan Peng, Haoxue Wu, Yang Han, Jun Liang, Jie Cao, Jing Li
cs.AI
Resumo
A qualidade narrativa de um vídeo determina fundamentalmente seu valor perceptivo. Embora os métodos existentes de geração de vídeo possam produzir conteúdo visualmente atraente, eles dependem predominantemente de sinais de condicionamento esparsos, como prompts de texto ou primeiro/último quadro, o que limita o controle preciso sobre a estrutura narrativa e o ritmo temporal. Neste artigo, propomos o SmartDirector, uma estrutura que aprimora a capacidade narrativa de modelos de geração de vídeo por meio de múltiplos quadros-chave. O SmartDirector suporta cenários flexíveis de geração, incluindo geração de tomada única, síntese narrativa de múltiplas tomadas e extensão de vídeo. A estrutura opera em duas etapas: Director-Gen gera um vídeo de baixa resolução condicionado aos quadros-chave fornecidos, e Director-SR refina a saída explorando quadros-chave de alta resolução como âncoras semânticas para recuperar detalhes refinados. Para permitir um treinamento robusto com múltiplos quadros-chave, construímos um pipeline de dados que seleciona sequências de tomada única e múltiplas tomadas a partir de filmes. Experimentos extensivos demonstram que o SmartDirector supera substancialmente as abordagens de estado da arte existentes. Disponibilizaremos o código para facilitar pesquisas futuras.
English
The narrative quality of a video fundamentally determines its perceptual value. Although existing video generation methods can produce visually appealing content, they predominantly rely on sparse conditioning signals such as text prompts or first/last frames, which limits precise control over narrative structure and temporal pacing. In this paper, we propose SmartDirector, a framework that enhances the narrative capacity of video generation models through multiple keyframes. SmartDirector supports flexible generation scenarios including single-shot generation, multi-shot narrative synthesis, and video extension. The framework operates in two stages: Director-Gen generates a low-resolution video conditioned on the provided keyframes, and Director-SR refines the output by exploiting high-resolution keyframes as semantic anchors to recover fine-grained details. To enable robust multi-keyframe training, we construct a data pipeline that curates single-shot and multi-shot sequences from movies. Extensive experiments demonstrate that SmartDirector substantially outperforms existing state-of-the-art approaches. We will release the code to facilitate further research.