Memento: Reconstrueren om te Onthouden voor Consistente Lange Video Generatie

Samenvatting

Het genereren van lange video's vereist dat terugkerende onderwerpen consistent blijven over verschillende shots, gezichtspunten, bewegingen en scènewisselingen. Bestaande temporele decompositiemethoden verbeteren de schaalbaarheid door video's shot voor shot te genereren. Ze richten zich echter voornamelijk op het optimaliseren van plausibele vervolgen van het volgende shot, zonder te verifiëren of het historische geheugen identiteitskritische aanwijzingen van het onderwerp bewaart. Als gevolg hiervan kunnen terugkerende onderwerpen worden verdund, overschreven of vergeten naarmate de generatie vordert. In dit artikel stellen we Memento voor, een door onderwerpreconstructie geleid raamwerk dat onderwerpsbehoud behandelt als een expliciet identiteitsverankeringsprobleem, gebaseerd op de premisse dat een geheugenbank die een onderwerp getrouw bewaart, de reconstructie van dat onderwerp uit alleen het geheugen zou moeten ondersteunen. Specifiek traint Memento gelijktijdig autoregressieve generatie van het volgende shot met op geheugen gebaseerde onderwerpreconstructie, waarbij de doelverschijningen worden hersteld met behulp van historisch geheugen en globale verhaalbijschriften. Om langetermijnbewijsmateriaal van het onderwerp te scheiden van kortetermijnaanwijzingen, introduceert Memento een dual-query geheugenmechanisme, waarbij de ene query identiteitsrelevant geheugen ophaalt en de andere keyframes met korte context selecteert voor coherente voortzetting. Bovendien biedt een onderwerpbewuste cinematische datapijplijn nauwkeurige reconstructiesupervisie via consistente, voornaamwoordvrije onderwerpomschrijvingen. Experimenten tonen aan dat Memento state-of-the-art prestaties levert op het gebied van consistentie van onderwerpen op lange termijn, coherentie tussen shots en visuele kwaliteit.

English

Long-form video generation requires recurring subjects to remain consistent across various shots, viewpoints, motions, and scene transitions. Existing temporal decomposition methods improve scalability by generating videos shot by shot. However, they mainly focus on optimizing plausible next-shot continuations without verifying whether the historical memory preserves identity-critical subject evidence. Consequently, as generation proceeds, recurring subjects may be diluted, overwritten, or forgotten. In this paper, we propose Memento, a subject-reconstruction-guided framework that treats subject preservation as an explicit identity grounding problem, based on the premise that a memory bank faithfully preserving a subject should support reconstructing that subject from memory alone. Specifically, Memento jointly trains autoregressive next-shot generation with memory-based subject reconstruction, recovering target appearances using historical memory and global story captions. To disentangle long-range subject evidence from short-range cues, Memento introduces a dual-query memory mechanism, where one query retrieves identity-relevant memory and the other selects short-context keyframes for coherent continuation. Additionally, a subject-aware cinematic data pipeline provides precise reconstruction supervision via consistent, pronoun-free subject descriptions. Experiments demonstrate that Memento achieves state-of-the-art performance in long-term subject consistency, cross-shot coherence, and visual quality.