Memento: Reconstruir para Lembrar para Geração Consistente de Vídeos Longos

Resumo

A geração de vídeos longos exige que sujeitos recorrentes permaneçam consistentes em diferentes planos, ângulos, movimentos e transições de cena. Os métodos existentes de decomposição temporal melhoram a escalabilidade gerando vídeos tomada por tomada. No entanto, eles se concentram principalmente em otimizar continuações plausíveis para a próxima tomada, sem verificar se a memória histórica preserva evidências críticas de identidade do sujeito. Consequentemente, à medida que a geração avança, os sujeitos recorrentes podem ser diluídos, sobrescritos ou esquecidos. Neste artigo, propomos o Memento, uma estrutura guiada por reconstrução de sujeito que trata a preservação do sujeito como um problema explícito de ancoragem de identidade, baseando-se na premissa de que um banco de memória que preserva fielmente um sujeito deve ser capaz de reconstruí-lo apenas a partir da memória. Especificamente, o Memento treina conjuntamente a geração autorregressiva da próxima tomada com a reconstrução do sujeito baseada em memória, recuperando as aparências alvo a partir da memória histórica e de legendas globais da história. Para separar evidências de sujeito de longo alcance de pistas de curto prazo, o Memento introduz um mecanismo de memória de consulta dupla, onde uma consulta recupera memória relevante à identidade e a outra seleciona quadros-chave de contexto curto para uma continuação coerente. Além disso, um pipeline de dados cinematográficos consciente do sujeito fornece supervisão precisa de reconstrução por meio de descrições de sujeito consistentes e sem pronomes. Experimentos demonstram que o Memento alcança desempenho estado da arte em consistência de sujeito de longo prazo, coerência entre tomadas e qualidade visual.

English

Long-form video generation requires recurring subjects to remain consistent across various shots, viewpoints, motions, and scene transitions. Existing temporal decomposition methods improve scalability by generating videos shot by shot. However, they mainly focus on optimizing plausible next-shot continuations without verifying whether the historical memory preserves identity-critical subject evidence. Consequently, as generation proceeds, recurring subjects may be diluted, overwritten, or forgotten. In this paper, we propose Memento, a subject-reconstruction-guided framework that treats subject preservation as an explicit identity grounding problem, based on the premise that a memory bank faithfully preserving a subject should support reconstructing that subject from memory alone. Specifically, Memento jointly trains autoregressive next-shot generation with memory-based subject reconstruction, recovering target appearances using historical memory and global story captions. To disentangle long-range subject evidence from short-range cues, Memento introduces a dual-query memory mechanism, where one query retrieves identity-relevant memory and the other selects short-context keyframes for coherent continuation. Additionally, a subject-aware cinematic data pipeline provides precise reconstruction supervision via consistent, pronoun-free subject descriptions. Experiments demonstrate that Memento achieves state-of-the-art performance in long-term subject consistency, cross-shot coherence, and visual quality.