Memento: Reconstruir para Recordar en la Generación Consistente de Videos Largos

Resumen

La generación de videos de larga duración requiere que los sujetos recurrentes se mantengan consistentes a través de diversos planos, puntos de vista, movimientos y transiciones de escena. Los métodos existentes de descomposición temporal mejoran la escalabilidad generando videos plano por plano. Sin embargo, se centran principalmente en optimizar continuaciones plausibles del siguiente plano sin verificar si la memoria histórica preserva la evidencia crítica de identidad del sujeto. En consecuencia, a medida que avanza la generación, los sujetos recurrentes pueden diluirse, sobrescribirse u olvidarse. En este artículo, proponemos Memento, un marco guiado por la reconstrucción del sujeto que trata la preservación del sujeto como un problema explícito de anclaje de identidad, basado en la premisa de que un banco de memoria que preserva fielmente un sujeto debería permitir reconstruir dicho sujeto únicamente a partir de la memoria. Específicamente, Memento entrena conjuntamente la generación autorregresiva del siguiente plano con la reconstrucción del sujeto basada en memoria, recuperando las apariencias objetivo mediante la memoria histórica y descripciones globales de la historia. Para desentrañar la evidencia del sujeto a largo plazo de las señales a corto plazo, Memento introduce un mecanismo de memoria de consulta dual, donde una consulta recupera memoria relevante para la identidad y la otra selecciona fotogramas clave de contexto corto para una continuación coherente. Además, un pipeline de datos cinematográfico consciente del sujeto proporciona una supervisión precisa de la reconstrucción mediante descripciones del sujeto consistentes y libres de pronombres. Los experimentos demuestran que Memento alcanza un rendimiento de vanguardia en consistencia del sujeto a largo plazo, coherencia entre planos y calidad visual.

English

Long-form video generation requires recurring subjects to remain consistent across various shots, viewpoints, motions, and scene transitions. Existing temporal decomposition methods improve scalability by generating videos shot by shot. However, they mainly focus on optimizing plausible next-shot continuations without verifying whether the historical memory preserves identity-critical subject evidence. Consequently, as generation proceeds, recurring subjects may be diluted, overwritten, or forgotten. In this paper, we propose Memento, a subject-reconstruction-guided framework that treats subject preservation as an explicit identity grounding problem, based on the premise that a memory bank faithfully preserving a subject should support reconstructing that subject from memory alone. Specifically, Memento jointly trains autoregressive next-shot generation with memory-based subject reconstruction, recovering target appearances using historical memory and global story captions. To disentangle long-range subject evidence from short-range cues, Memento introduces a dual-query memory mechanism, where one query retrieves identity-relevant memory and the other selects short-context keyframes for coherent continuation. Additionally, a subject-aware cinematic data pipeline provides precise reconstruction supervision via consistent, pronoun-free subject descriptions. Experiments demonstrate that Memento achieves state-of-the-art performance in long-term subject consistency, cross-shot coherence, and visual quality.