Мементо: Реконструировать, чтобы помнить, для последовательной генерации длинных видео

Аннотация

Генерация длинных видеоформатов требует, чтобы повторяющиеся субъекты оставались согласованными при различных сценах, ракурсах, движениях и переходах между сценами. Существующие методы временного разложения повышают масштабируемость, генерируя видео сцена за сценой. Однако они в основном сосредоточены на оптимизации правдоподобных продолжений следующей сцены без проверки, сохраняет ли историческая память свидетельства, критически важные для идентичности субъекта. В результате по мере генерации повторяющиеся субъекты могут размываться, перезаписываться или забываться. В данной статье мы предлагаем Memento — фреймворк, управляемый реконструкцией субъекта, который рассматривает сохранение субъекта как явную проблему установления идентичности, исходя из предпосылки, что банк памяти, достоверно сохраняющий субъект, должен поддерживать реконструкцию этого субъекта только на основе памяти. В частности, Memento совместно обучает авторегрессионную генерацию следующей сцены с реконструкцией субъекта на основе памяти, восстанавливая целевые внешние проявления с использованием исторической памяти и глобальных описаний сюжета. Чтобы разделить долгосрочные свидетельства субъекта и краткосрочные сигналы, Memento вводит механизм двойного запроса памяти, где один запрос извлекает память, относящуюся к идентичности, а другой выбирает ключевые кадры краткого контекста для связного продолжения. Кроме того, конвейер кинематографических данных с учетом субъекта обеспечивает точное контролирующее воздействие при реконструкции посредством согласованных описаний субъекта без местоимений. Эксперименты показывают, что Memento достигает современного уровня производительности в долгосрочной согласованности субъекта, межсценарной когерентности и визуальном качестве.

English

Long-form video generation requires recurring subjects to remain consistent across various shots, viewpoints, motions, and scene transitions. Existing temporal decomposition methods improve scalability by generating videos shot by shot. However, they mainly focus on optimizing plausible next-shot continuations without verifying whether the historical memory preserves identity-critical subject evidence. Consequently, as generation proceeds, recurring subjects may be diluted, overwritten, or forgotten. In this paper, we propose Memento, a subject-reconstruction-guided framework that treats subject preservation as an explicit identity grounding problem, based on the premise that a memory bank faithfully preserving a subject should support reconstructing that subject from memory alone. Specifically, Memento jointly trains autoregressive next-shot generation with memory-based subject reconstruction, recovering target appearances using historical memory and global story captions. To disentangle long-range subject evidence from short-range cues, Memento introduces a dual-query memory mechanism, where one query retrieves identity-relevant memory and the other selects short-context keyframes for coherent continuation. Additionally, a subject-aware cinematic data pipeline provides precise reconstruction supervision via consistent, pronoun-free subject descriptions. Experiments demonstrate that Memento achieves state-of-the-art performance in long-term subject consistency, cross-shot coherence, and visual quality.