OneStory: Generación de Vídeo Multi-Shot Coherente con Memoria Adaptativa
OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory
December 8, 2025
Autores: Zhaochong An, Menglin Jia, Haonan Qiu, Zijian Zhou, Xiaoke Huang, Zhiheng Liu, Weiming Ren, Kumara Kahatapitiya, Ding Liu, Sen He, Chenyang Zhang, Tao Xiang, Fanny Yang, Serge Belongie, Tian Xie
cs.AI
Resumen
La narrativa en videos del mundo real a menudo se desarrolla a través de múltiples planos: clips discontinuos pero semánticamente conectados que, en conjunto, transmiten una narrativa coherente. Sin embargo, los métodos existentes de generación de video multi-plano (MSV) tienen dificultades para modelar efectivamente el contexto de largo alcance entre planos, ya que dependen de ventanas temporales limitadas o del condicionamiento por un único fotograma clave, lo que conduce a un rendimiento degradado en narrativas complejas. En este trabajo, proponemos OneStory, que permite un modelado del contexto entre planos global pero compacto para una generación de narrativa consistente y escalable. OneStory reformula el MSV como una tarea de generación del siguiente plano, permitiendo una síntesis de planos autorregresiva mientras aprovecha modelos preentrenados de imagen a video (I2V) para un condicionamiento visual sólido. Introducimos dos módulos clave: un módulo de Selección de Fotogramas que construye una memoria global semánticamente relevante basada en fotogramas informativos de planos anteriores, y un Acondicionador Adaptativo que realiza una parcelación guiada por importancia para generar un contexto compacto para el condicionamiento directo. Además, creamos un conjunto de datos multi-plano de alta calidad con descripciones referenciales para reflejar patrones de narración del mundo real, y diseñamos estrategias de entrenamiento efectivas bajo el paradigma del siguiente plano. Entrenado a partir de un modelo I2V preentrenado en nuestro conjunto de datos curado de 60K ejemplos, OneStory logra una coherencia narrativa state-of-the-art en escenas diversas y complejas, tanto en configuraciones condicionadas por texto como por imagen, permitiendo una narración de video de formato largo, controlable e inmersiva.
English
Storytelling in real-world videos often unfolds through multiple shots -- discontinuous yet semantically connected clips that together convey a coherent narrative. However, existing multi-shot video generation (MSV) methods struggle to effectively model long-range cross-shot context, as they rely on limited temporal windows or single keyframe conditioning, leading to degraded performance under complex narratives. In this work, we propose OneStory, enabling global yet compact cross-shot context modeling for consistent and scalable narrative generation. OneStory reformulates MSV as a next-shot generation task, enabling autoregressive shot synthesis while leveraging pretrained image-to-video (I2V) models for strong visual conditioning. We introduce two key modules: a Frame Selection module that constructs a semantically-relevant global memory based on informative frames from prior shots, and an Adaptive Conditioner that performs importance-guided patchification to generate compact context for direct conditioning. We further curate a high-quality multi-shot dataset with referential captions to mirror real-world storytelling patterns, and design effective training strategies under the next-shot paradigm. Finetuned from a pretrained I2V model on our curated 60K dataset, OneStory achieves state-of-the-art narrative coherence across diverse and complex scenes in both text- and image-conditioned settings, enabling controllable and immersive long-form video storytelling.