OneStory: 適応的メモリを用いた一貫性のあるマルチショット動画生成
OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory
December 8, 2025
著者: Zhaochong An, Menglin Jia, Haonan Qiu, Zijian Zhou, Xiaoke Huang, Zhiheng Liu, Weiming Ren, Kumara Kahatapitiya, Ding Liu, Sen He, Chenyang Zhang, Tao Xiang, Fanny Yang, Serge Belongie, Tian Xie
cs.AI
要旨
実世界のビデオにおけるストーリーテリングは、多くの場合、複数のショットを通じて展開されます。これらは不連続でありながら意味的につながったクリップ群が、一貫したナラティブを構成するものです。しかし、既存のマルチショット動画生成(MSV)手法は、限られた時間ウィンドウや単一キーフレーム条件付けに依存するため、長距離にわたるショット間のコンテキストを効果的にモデル化できず、複雑なナラティブ下では性能が低下する課題があります。本研究では、一貫性かつスケーラブルなナラティブ生成を実現するため、グローバルでありながらコンパクトなショット間コンテキストモデリングを可能にするOneStoryを提案します。OneStoryはMSVを次ショット生成タスクとして再定義し、事前学習済み画像→動画(I2V)モデルの強力な視覚的条件付けを活かしながら、自己回帰的なショット合成を実現します。我々は二つの主要モジュールを導入します:過去のショットから情報量の多いフレームを基に意味的に関連するグローバルメモリを構築するフレーム選択モジュールと、重要度誘導型パッチ化によって直接条件付けのためのコンパクトなコンテキストを生成する適応型条件付けモジュールです。さらに、実世界のストーリーテリングパターンを反映した参照記述付きの高品質マルチショットデータセットを構築し、次ショットパラダイム下での効果的な学習戦略を設計しました。事前学習済みI2Vモデルを構築した6万データセットでファインチューニングしたOneStoryは、テキスト条件付け及び画像条件付けの両設定において、多様かつ複雑なシーンで最先端のナラティブ一貫性を達成し、制御可能で没入感のある長尺動画ストーリーテリングを実現します。
English
Storytelling in real-world videos often unfolds through multiple shots -- discontinuous yet semantically connected clips that together convey a coherent narrative. However, existing multi-shot video generation (MSV) methods struggle to effectively model long-range cross-shot context, as they rely on limited temporal windows or single keyframe conditioning, leading to degraded performance under complex narratives. In this work, we propose OneStory, enabling global yet compact cross-shot context modeling for consistent and scalable narrative generation. OneStory reformulates MSV as a next-shot generation task, enabling autoregressive shot synthesis while leveraging pretrained image-to-video (I2V) models for strong visual conditioning. We introduce two key modules: a Frame Selection module that constructs a semantically-relevant global memory based on informative frames from prior shots, and an Adaptive Conditioner that performs importance-guided patchification to generate compact context for direct conditioning. We further curate a high-quality multi-shot dataset with referential captions to mirror real-world storytelling patterns, and design effective training strategies under the next-shot paradigm. Finetuned from a pretrained I2V model on our curated 60K dataset, OneStory achieves state-of-the-art narrative coherence across diverse and complex scenes in both text- and image-conditioned settings, enabling controllable and immersive long-form video storytelling.