ChatPaper.aiChatPaper

OneStory : Génération vidéo multi-plan cohérente avec mémoire adaptative

OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory

December 8, 2025
papers.authors: Zhaochong An, Menglin Jia, Haonan Qiu, Zijian Zhou, Xiaoke Huang, Zhiheng Liu, Weiming Ren, Kumara Kahatapitiya, Ding Liu, Sen He, Chenyang Zhang, Tao Xiang, Fanny Yang, Serge Belongie, Tian Xie
cs.AI

papers.abstract

La narration dans les vidéos du monde réel se déroule souvent à travers plusieurs plans – des clips discontinus mais sémantiquement connectés qui, ensemble, véhiculent un récit cohérent. Cependant, les méthodes existantes de génération de vidéos multi-plans (MSV) peinent à modéliser efficacement le contexte à longue portée entre les plans, car elles reposent sur des fenêtres temporelles limitées ou un conditionnement sur une image clé unique, ce qui entraîne une dégradation des performances dans des récits complexes. Dans ce travail, nous proposons OneStory, qui permet une modélisation globale et compacte du contexte inter-plans pour une génération narrative cohérente et évolutive. OneStory reformule la MSV comme une tâche de génération de plan suivant, permettant une synthèse de plans autoregressive tout en exploitant des modèles pré-entraînés image-à-vidéo (I2V) pour un conditionnement visuel robuste. Nous introduisons deux modules clés : un module de Sélection d'Images qui construit une mémoire globale sémantiquement pertinente à partir des images informatives des plans précédents, et un Conditionneur Adaptatif qui effectue une patchification guidée par l'importance pour générer un contexte compact utilisé pour le conditionnement direct. Nous constituons en outre un jeu de données multi-plans de haute qualité avec des légendes référentielles pour refléter les schémas narratifs du monde réel, et concevons des stratégies d'entraînement efficaces dans le paradigme du plan suivant. Entraîné à partir d'un modèle I2V pré-entraîné sur notre jeu de données de 60K, OneStory atteint une cohérence narrative de pointe dans des scènes diverses et complexes, que le conditionnement soit basé sur du texte ou une image, permettant une narration vidéo longue et contrôlable.
English
Storytelling in real-world videos often unfolds through multiple shots -- discontinuous yet semantically connected clips that together convey a coherent narrative. However, existing multi-shot video generation (MSV) methods struggle to effectively model long-range cross-shot context, as they rely on limited temporal windows or single keyframe conditioning, leading to degraded performance under complex narratives. In this work, we propose OneStory, enabling global yet compact cross-shot context modeling for consistent and scalable narrative generation. OneStory reformulates MSV as a next-shot generation task, enabling autoregressive shot synthesis while leveraging pretrained image-to-video (I2V) models for strong visual conditioning. We introduce two key modules: a Frame Selection module that constructs a semantically-relevant global memory based on informative frames from prior shots, and an Adaptive Conditioner that performs importance-guided patchification to generate compact context for direct conditioning. We further curate a high-quality multi-shot dataset with referential captions to mirror real-world storytelling patterns, and design effective training strategies under the next-shot paradigm. Finetuned from a pretrained I2V model on our curated 60K dataset, OneStory achieves state-of-the-art narrative coherence across diverse and complex scenes in both text- and image-conditioned settings, enabling controllable and immersive long-form video storytelling.
PDF311December 11, 2025