ChatPaper.aiChatPaper

OneStory: 적응형 메모리를 통한 일관된 멀티샷 비디오 생성

OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory

December 8, 2025
저자: Zhaochong An, Menglin Jia, Haonan Qiu, Zijian Zhou, Xiaoke Huang, Zhiheng Liu, Weiming Ren, Kumara Kahatapitiya, Ding Liu, Sen He, Chenyang Zhang, Tao Xiang, Fanny Yang, Serge Belongie, Tian Xie
cs.AI

초록

실세계 비디오의 스토리텔링은 종종 여러 샷을 통해 전개됩니다. 이는 불연속적이지만 의미적으로 연결된 클립들이 모여 일관된 서사를 전달하는 방식입니다. 그러나 기존의 다중 샷 비디오 생성(MSV) 방법은 제한된 시간적 윈도우나 단일 키프레임 조건화에 의존하기 때문에 장거리 교차 샷 컨텍스트를 효과적으로 모델링하지 못하며, 이로 인해 복잡한 서사 하에서 성능이 저하됩니다. 본 연구에서는 일관적이고 확장 가능한 서사 생성을 위해 전역적이면서도 간결한 교차 샷 컨텍스트 모델링을 가능하게 하는 OneStory를 제안합니다. OneStory는 MSV를 다음 샷 생성 작업으로 재정의하여 사전 학습된 이미지-비디오(I2V) 모델의 강력한 시각적 조건화를 활용하면서 자기회귀적 샷 합성을 가능하게 합니다. 우리는 두 가지 핵심 모듈을 도입했습니다: 이전 샷들의 정보성 높은 프레임을 기반으로 의미적으로 관련된 전역 메모리를 구성하는 프레임 선택 모듈과, 중요도 가이드 패치화를 수행하여 직접 조건화를 위한 간결한 컨텍스트를 생성하는 적응형 조건기입니다. 또한 실세계 스토리텔링 패턴을 반영하는 참조 캡션을 포함한 고품질 다중 샷 데이터셋을 구축하고, 다음 샷 패러다임 하에서 효과적인 학습 전략을 설계했습니다. 우리가 구축한 60K 데이터셋으로 사전 학습된 I2V 모델을 미세 조정한 OneStory는 텍스트 및 이미지 조건 설정 모두에서 다양하고 복잡한 장면에 걸쳐 최첨단 수준의 서사적 일관성을 달성하며, 제어 가능하고 몰입감 있는 장편 비디오 스토리텔링을 가능하게 합니다.
English
Storytelling in real-world videos often unfolds through multiple shots -- discontinuous yet semantically connected clips that together convey a coherent narrative. However, existing multi-shot video generation (MSV) methods struggle to effectively model long-range cross-shot context, as they rely on limited temporal windows or single keyframe conditioning, leading to degraded performance under complex narratives. In this work, we propose OneStory, enabling global yet compact cross-shot context modeling for consistent and scalable narrative generation. OneStory reformulates MSV as a next-shot generation task, enabling autoregressive shot synthesis while leveraging pretrained image-to-video (I2V) models for strong visual conditioning. We introduce two key modules: a Frame Selection module that constructs a semantically-relevant global memory based on informative frames from prior shots, and an Adaptive Conditioner that performs importance-guided patchification to generate compact context for direct conditioning. We further curate a high-quality multi-shot dataset with referential captions to mirror real-world storytelling patterns, and design effective training strategies under the next-shot paradigm. Finetuned from a pretrained I2V model on our curated 60K dataset, OneStory achieves state-of-the-art narrative coherence across diverse and complex scenes in both text- and image-conditioned settings, enabling controllable and immersive long-form video storytelling.
PDF311December 11, 2025