OneStory: Generazione Coerente di Video Multi-Shot con Memoria Adattiva
OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory
December 8, 2025
Autori: Zhaochong An, Menglin Jia, Haonan Qiu, Zijian Zhou, Xiaoke Huang, Zhiheng Liu, Weiming Ren, Kumara Kahatapitiya, Ding Liu, Sen He, Chenyang Zhang, Tao Xiang, Fanny Yang, Serge Belongie, Tian Xie
cs.AI
Abstract
La narrazione nei video del mondo reale si sviluppa spesso attraverso più inquadrature – clip discontinue ma semanticamente connesse che insieme trasmettono una narrazione coerente. Tuttavia, i metodi esistenti per la generazione di video multi-inquadratura (MSV) faticano a modellare efficacemente il contesto a lungo raggio tra le inquadrature, poiché si basano su finestre temporali limitate o sul condizionamento di un singolo fotogramma chiave, portando a prestazioni ridotte in narrazioni complesse. In questo lavoro, proponiamo OneStory, che consente una modellizzazione del contesto tra inquadrature globale ma compatta per una generazione narrativa coerente e scalabile. OneStory riformula la MSV come un compito di generazione dell'inquadratura successiva, permettendo una sintesi autoregressiva delle inquadrature sfruttando modelli preaddestrati da immagine a video (I2V) per un forte condizionamento visivo. Introduciamo due moduli chiave: un modulo di Selezione dei Fotogrammi che costruisce una memoria globale semanticamente rilevante basata su fotogrammi informativi delle inquadrature precedenti, e un Condizionatore Adattivo che esegue una "patchificazione" guidata dall'importanza per generare un contesto compatto per il condizionamento diretto. Curiamo inoltre un dataset multi-inquadratura di alta qualità con didascalie referenziali per rispecchiare i modelli narrativi del mondo reale e progettiamo strategie di addestramento efficaci sotto il paradigma dell'inquadratura successiva. Addestrato a partire da un modello I2V preaddestrato sul nostro dataset curato di 60K elementi, OneStory raggiunge una coerenza narrativa allo stato dell'arte attraverso scene diverse e complesse sia in contesti condizionati da testo che da immagine, abilitando una narrazione video di lunga durata controllabile e immersiva.
English
Storytelling in real-world videos often unfolds through multiple shots -- discontinuous yet semantically connected clips that together convey a coherent narrative. However, existing multi-shot video generation (MSV) methods struggle to effectively model long-range cross-shot context, as they rely on limited temporal windows or single keyframe conditioning, leading to degraded performance under complex narratives. In this work, we propose OneStory, enabling global yet compact cross-shot context modeling for consistent and scalable narrative generation. OneStory reformulates MSV as a next-shot generation task, enabling autoregressive shot synthesis while leveraging pretrained image-to-video (I2V) models for strong visual conditioning. We introduce two key modules: a Frame Selection module that constructs a semantically-relevant global memory based on informative frames from prior shots, and an Adaptive Conditioner that performs importance-guided patchification to generate compact context for direct conditioning. We further curate a high-quality multi-shot dataset with referential captions to mirror real-world storytelling patterns, and design effective training strategies under the next-shot paradigm. Finetuned from a pretrained I2V model on our curated 60K dataset, OneStory achieves state-of-the-art narrative coherence across diverse and complex scenes in both text- and image-conditioned settings, enabling controllable and immersive long-form video storytelling.