SmartDirector: Generación de Video Cinematográfico Condicionada por Fotogramas Clave con Control del Ritmo Narrativo

Resumen

La calidad narrativa de un video determina fundamentalmente su valor perceptivo. Aunque los métodos existentes de generación de video pueden producir contenido visualmente atractivo, dependen predominantemente de señales de condicionamiento dispersas, como indicaciones textuales o el primer/último fotograma, lo que limita el control preciso sobre la estructura narrativa y el ritmo temporal. En este artículo, proponemos SmartDirector, un marco que mejora la capacidad narrativa de los modelos de generación de video mediante múltiples fotogramas clave. SmartDirector admite escenarios de generación flexibles, incluida la generación de una sola toma, la síntesis narrativa de múltiples tomas y la extensión de video. El marco opera en dos etapas: Director-Gen genera un video de baja resolución condicionado a los fotogramas clave proporcionados, y Director-SR refina el resultado aprovechando fotogramas clave de alta resolución como anclajes semánticos para recuperar detalles finos. Para habilitar un entrenamiento robusto con múltiples fotogramas clave, construimos un pipeline de datos que selecciona secuencias de una y múltiples tomas a partir de películas. Experimentos exhaustivos demuestran que SmartDirector supera sustancialmente a los enfoques de última generación existentes. Publicaremos el código para facilitar la investigación futura.

English

The narrative quality of a video fundamentally determines its perceptual value. Although existing video generation methods can produce visually appealing content, they predominantly rely on sparse conditioning signals such as text prompts or first/last frames, which limits precise control over narrative structure and temporal pacing. In this paper, we propose SmartDirector, a framework that enhances the narrative capacity of video generation models through multiple keyframes. SmartDirector supports flexible generation scenarios including single-shot generation, multi-shot narrative synthesis, and video extension. The framework operates in two stages: Director-Gen generates a low-resolution video conditioned on the provided keyframes, and Director-SR refines the output by exploiting high-resolution keyframes as semantic anchors to recover fine-grained details. To enable robust multi-keyframe training, we construct a data pipeline that curates single-shot and multi-shot sequences from movies. Extensive experiments demonstrate that SmartDirector substantially outperforms existing state-of-the-art approaches. We will release the code to facilitate further research.