Memento : Reconstruire pour se souvenir pour une génération cohérente de vidéos longues

Résumé

La génération de vidéos longues nécessite que les sujets récurrents restent cohérents à travers divers plans, points de vue, mouvements et transitions de scènes. Les méthodes existantes de décomposition temporelle améliorent la scalabilité en générant des vidéos plan par plan. Cependant, elles se concentrent principalement sur l'optimisation de continuations plausibles du plan suivant sans vérifier si la mémoire historique préserve les preuves essentielles à l'identité du sujet. Par conséquent, à mesure que la génération progresse, les sujets récurrents peuvent être dilués, écrasés ou oubliés. Dans cet article, nous proposons Memento, un cadre guidé par la reconstruction du sujet qui traite la préservation du sujet comme un problème explicite d'ancrage identitaire, fondé sur le principe qu'une banque de mémoire fidèle à un sujet devrait permettre de reconstruire ce sujet à partir de la seule mémoire. Plus précisément, Memento entraîne conjointement la génération autorégressive du plan suivant avec la reconstruction du sujet basée sur la mémoire, en récupérant les apparences cibles à l'aide de la mémoire historique et des légendes globales de l'histoire. Pour démêler les preuves de sujet à long terme des indices à court terme, Memento introduit un mécanisme de mémoire à double requête, où une requête récupère la mémoire pertinente à l'identité et l'autre sélectionne des images clés à contexte court pour une continuation cohérente. De plus, un pipeline de données cinématographique sensible au sujet fournit une supervision précise de la reconstruction via des descriptions de sujet cohérentes et sans pronom. Les expériences montrent que Memento atteint des performances de pointe en matière de cohérence sujet à long terme, de cohérence inter-plan et de qualité visuelle.

English

Long-form video generation requires recurring subjects to remain consistent across various shots, viewpoints, motions, and scene transitions. Existing temporal decomposition methods improve scalability by generating videos shot by shot. However, they mainly focus on optimizing plausible next-shot continuations without verifying whether the historical memory preserves identity-critical subject evidence. Consequently, as generation proceeds, recurring subjects may be diluted, overwritten, or forgotten. In this paper, we propose Memento, a subject-reconstruction-guided framework that treats subject preservation as an explicit identity grounding problem, based on the premise that a memory bank faithfully preserving a subject should support reconstructing that subject from memory alone. Specifically, Memento jointly trains autoregressive next-shot generation with memory-based subject reconstruction, recovering target appearances using historical memory and global story captions. To disentangle long-range subject evidence from short-range cues, Memento introduces a dual-query memory mechanism, where one query retrieves identity-relevant memory and the other selects short-context keyframes for coherent continuation. Additionally, a subject-aware cinematic data pipeline provides precise reconstruction supervision via consistent, pronoun-free subject descriptions. Experiments demonstrate that Memento achieves state-of-the-art performance in long-term subject consistency, cross-shot coherence, and visual quality.