ChatPaper.aiChatPaper

SmartDirector: обусловленная ключевыми кадрами генерация кинематографического видео с управлением темпом повествования

SmartDirector: Keyframe-Conditioned Cinematic Video Generation with Narrative Pacing Control

May 27, 2026
Авторы: Zhida Zhang, Jie Ma, Zhan Peng, Haoxue Wu, Yang Han, Jun Liang, Jie Cao, Jing Li
cs.AI

Аннотация

Нарративное качество видео фундаментально определяет его перцептивную ценность. Хотя существующие методы генерации видео способны создавать визуально привлекательный контент, они в значительной степени опираются на разреженные сигналы управления, такие как текстовые подсказки или первый/последний кадры, что ограничивает точный контроль над нарративной структурой и временным темпом. В данной работе мы предлагаем SmartDirector — фреймворк, расширяющий нарративные возможности моделей генерации видео за счет использования множества ключевых кадров. SmartDirector поддерживает гибкие сценарии генерации, включая односценарную генерацию, многосценарный нарративный синтез и расширение видео. Фреймворк работает в два этапа: Director-Gen генерирует видео низкого разрешения, обусловленное заданными ключевыми кадрами, а Director-SR улучшает результат, используя ключевые кадры высокого разрешения в качестве семантических якорей для восстановления мелких деталей. Для обеспечения устойчивого обучения на множественных ключевых кадрах мы создали конвейер данных, который отбирает односценарные и многосценарные последовательности из фильмов. Обширные эксперименты показывают, что SmartDirector значительно превосходит существующие современные подходы. Мы опубликуем код для содействия дальнейшим исследованиям.
English
The narrative quality of a video fundamentally determines its perceptual value. Although existing video generation methods can produce visually appealing content, they predominantly rely on sparse conditioning signals such as text prompts or first/last frames, which limits precise control over narrative structure and temporal pacing. In this paper, we propose SmartDirector, a framework that enhances the narrative capacity of video generation models through multiple keyframes. SmartDirector supports flexible generation scenarios including single-shot generation, multi-shot narrative synthesis, and video extension. The framework operates in two stages: Director-Gen generates a low-resolution video conditioned on the provided keyframes, and Director-SR refines the output by exploiting high-resolution keyframes as semantic anchors to recover fine-grained details. To enable robust multi-keyframe training, we construct a data pipeline that curates single-shot and multi-shot sequences from movies. Extensive experiments demonstrate that SmartDirector substantially outperforms existing state-of-the-art approaches. We will release the code to facilitate further research.