OneStory: Geração de Vídeo Multi-Shot Coerente com Memória Adaptativa

Resumo

A narrativa em vídeos do mundo real frequentemente se desenrola por meio de múltiplos planos – clipes descontínuos, mas semanticamente conectados, que juntos transmitem uma narrativa coerente. No entanto, os métodos existentes de geração de vídeo com múltiplos planos (MSV) lutam para modelar efetivamente o contexto de longo alcance entre planos, pois dependem de janelas temporais limitadas ou do condicionamento por um único fotograma-chave, levando a uma degradação do desempenho em narrativas complexas. Neste trabalho, propomos o OneStory, que permite uma modelagem de contexto entre planos global e compacta para uma geração de narrativa consistente e escalável. O OneStory reformula o MSV como uma tarefa de geração do próximo plano, permitindo a síntese autoregressiva de planos enquanto aproveita modelos pré-treinados de imagem para vídeo (I2V) para um condicionamento visual robusto. Introduzimos dois módulos-chave: um módulo de Seleção de Fotogramas que constrói uma memória global semanticamente relevante com base em fotogramas informativos de planos anteriores, e um Condicionador Adaptativo que realiza uma "patchificação" guiada por importância para gerar um contexto compacto para condicionamento direto. Além disso, curadamos um conjunto de dados de alta qualidade com múltiplos planos e legendas referenciais para espelhar padrões de narrativa do mundo real, e projetamos estratégias de treinamento eficazes sob o paradigma do próximo plano. Fine-tuneado a partir de um modelo I2V pré-treinado em nosso conjunto de dados curado de 60K amostras, o OneStory alcança uma coerência narrativa state-of-the-art em diversas cenas complexas, tanto em configurações condicionadas por texto quanto por imagem, permitindo a criação de narrativas vídeo de longa duração controláveis e imersivas.

English

Storytelling in real-world videos often unfolds through multiple shots -- discontinuous yet semantically connected clips that together convey a coherent narrative. However, existing multi-shot video generation (MSV) methods struggle to effectively model long-range cross-shot context, as they rely on limited temporal windows or single keyframe conditioning, leading to degraded performance under complex narratives. In this work, we propose OneStory, enabling global yet compact cross-shot context modeling for consistent and scalable narrative generation. OneStory reformulates MSV as a next-shot generation task, enabling autoregressive shot synthesis while leveraging pretrained image-to-video (I2V) models for strong visual conditioning. We introduce two key modules: a Frame Selection module that constructs a semantically-relevant global memory based on informative frames from prior shots, and an Adaptive Conditioner that performs importance-guided patchification to generate compact context for direct conditioning. We further curate a high-quality multi-shot dataset with referential captions to mirror real-world storytelling patterns, and design effective training strategies under the next-shot paradigm. Finetuned from a pretrained I2V model on our curated 60K dataset, OneStory achieves state-of-the-art narrative coherence across diverse and complex scenes in both text- and image-conditioned settings, enabling controllable and immersive long-form video storytelling.

OneStory: Geração de Vídeo Multi-Shot Coerente com Memória Adaptativa

OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory

Resumo

Support