Memento: Rekonstruieren zum Erinnern für konsistente Langzeitvideogenerierung

Zusammenfassung

Die Generierung von Langformvideos erfordert, dass wiederkehrende Subjekte in verschiedenen Einstellungen, Blickwinkeln, Bewegungen und Szenenübergängen konsistent bleiben. Bestehende Methoden der zeitlichen Zerlegung verbessern die Skalierbarkeit, indem sie Videos Einstellung für Einstellung generieren. Sie konzentrieren sich jedoch hauptsächlich auf die Optimierung plausibler Fortsetzungen der nächsten Einstellung, ohne zu überprüfen, ob der historische Speicher identitätskritische Subjektnachweise bewahrt. Folglich können wiederkehrende Subjekte im Laufe der Generierung verwässert, überschrieben oder vergessen werden. In dieser Arbeit schlagen wir Memento vor, ein subjektrekonstruktionsgestütztes Framework, das die Subjekterhaltung als explizites Identitätsverankerungsproblem behandelt, basierend auf der Prämisse, dass ein Speicher, der ein Subjekt treu bewahrt, die Rekonstruktion dieses Subjekts allein aus dem Speicher unterstützen sollte. Konkret trainiert Memento gemeinsam die autoregressive Generierung der nächsten Einstellung mit der speicherbasierten Subjektrekonstruktion, wobei Zielerscheinungen unter Verwendung des historischen Speichers und globaler Handlungsbeschreibungen wiederhergestellt werden. Um langreichweitige Subjektnachweise von kurzreichweitigen Hinweisen zu entflechten, führt Memento einen Dual-Query-Speichermechanismus ein, bei dem eine Abfrage identitätsrelevante Erinnerungen abruft und die andere Kurzkontext-Schlüsselbilder für eine kohärente Fortsetzung auswählt. Darüber hinaus liefert eine subjektbewusste kinematografische Datenpipeline präzise Rekonstruktionsüberwachung durch konsistente, pronomenfreie Subjektbeschreibungen. Experimente zeigen, dass Memento eine Spitzenleistung in der langfristigen Subjektkonsistenz, der einstellungsübergreifenden Kohärenz und der visuellen Qualität erzielt.

English

Long-form video generation requires recurring subjects to remain consistent across various shots, viewpoints, motions, and scene transitions. Existing temporal decomposition methods improve scalability by generating videos shot by shot. However, they mainly focus on optimizing plausible next-shot continuations without verifying whether the historical memory preserves identity-critical subject evidence. Consequently, as generation proceeds, recurring subjects may be diluted, overwritten, or forgotten. In this paper, we propose Memento, a subject-reconstruction-guided framework that treats subject preservation as an explicit identity grounding problem, based on the premise that a memory bank faithfully preserving a subject should support reconstructing that subject from memory alone. Specifically, Memento jointly trains autoregressive next-shot generation with memory-based subject reconstruction, recovering target appearances using historical memory and global story captions. To disentangle long-range subject evidence from short-range cues, Memento introduces a dual-query memory mechanism, where one query retrieves identity-relevant memory and the other selects short-context keyframes for coherent continuation. Additionally, a subject-aware cinematic data pipeline provides precise reconstruction supervision via consistent, pronoun-free subject descriptions. Experiments demonstrate that Memento achieves state-of-the-art performance in long-term subject consistency, cross-shot coherence, and visual quality.