ChatPaper.aiChatPaper

OneStory: Согласованное многосценовое видеогенерация с адаптивной памятью

OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory

December 8, 2025
Авторы: Zhaochong An, Menglin Jia, Haonan Qiu, Zijian Zhou, Xiaoke Huang, Zhiheng Liu, Weiming Ren, Kumara Kahatapitiya, Ding Liu, Sen He, Chenyang Zhang, Tao Xiang, Fanny Yang, Serge Belongie, Tian Xie
cs.AI

Аннотация

Повествование в реальных видеороликах часто разворачивается через множество кадров — дискретных, но семантически связанных клипов, которые вместе передают связную историю. Однако существующие методы генерации многокадрового видео (МКВ) сталкиваются с трудностями при эффективном моделировании контекста между кадрами на больших промежутках, поскольку они полагаются на ограниченные временные окна или условие от одного ключевого кадра, что приводит к снижению производительности при сложных сюжетах. В данной работе мы предлагаем OneStory, который обеспечивает глобальное, но компактное моделирование межкадрового контекста для согласованной и масштабируемой генерации повествования. OneStory переформулирует задачу МКВ как задачу генерации следующего кадра, позволяя осуществлять авторегрессионный синтез кадров с использованием предобученных моделей «изображение-в-видео» для сильного визуального обусловливания. Мы вводим два ключевых модуля: модуль выбора кадров, который строит семантически релевантную глобальную память на основе информативных кадров из предыдущих сцен, и адаптивный модуль обусловливания, который выполняет важностно-ориентированную пачфикацию для генерации компактного контекста для прямого обусловливания. Дополнительно мы создали высококачественный многокадровый датасет с референциальными описаниями, отражающий паттерны повествования из реального мира, и разработали эффективные стратегии обучения в рамках парадигмы «следующий кадр». OneStory, дообученный на нашем датасете из 60 тыс. примеров на основе предобученной I2V-модели, демонстрирует наилучшую согласованность повествования в разнообразных и сложных сценах как в текстовых, так и в изображенческих условиях, обеспечивая контролируемое и иммерсивное создание длинных видео-историй.
English
Storytelling in real-world videos often unfolds through multiple shots -- discontinuous yet semantically connected clips that together convey a coherent narrative. However, existing multi-shot video generation (MSV) methods struggle to effectively model long-range cross-shot context, as they rely on limited temporal windows or single keyframe conditioning, leading to degraded performance under complex narratives. In this work, we propose OneStory, enabling global yet compact cross-shot context modeling for consistent and scalable narrative generation. OneStory reformulates MSV as a next-shot generation task, enabling autoregressive shot synthesis while leveraging pretrained image-to-video (I2V) models for strong visual conditioning. We introduce two key modules: a Frame Selection module that constructs a semantically-relevant global memory based on informative frames from prior shots, and an Adaptive Conditioner that performs importance-guided patchification to generate compact context for direct conditioning. We further curate a high-quality multi-shot dataset with referential captions to mirror real-world storytelling patterns, and design effective training strategies under the next-shot paradigm. Finetuned from a pretrained I2V model on our curated 60K dataset, OneStory achieves state-of-the-art narrative coherence across diverse and complex scenes in both text- and image-conditioned settings, enabling controllable and immersive long-form video storytelling.
PDF311December 11, 2025