Echo-Forcing: Ein Szenenspeicher-Framework für die interaktive Erzeugung langer Videos

Zusammenfassung

Autoregressive Videodiffusionsmodelle ermöglichen eine offene Generierung durch lokale Aufmerksamkeit und KV-Caching. Allerdings konzentrieren sich bestehende trainingsfreie Optimierungsmethoden für lange Videos hauptsächlich auf stabile Erweiterungen unter einem einzigen Prompt, was die Handhabung interaktiver Szenarien mit Promptwechsel, Vergessen alter Szenen und Abruf historischer Szenen erschwert. Wir identifizieren den Kernengpass als die funktionale Verflechtung historischer KV-Zustände: Stabile Anker und aktuelle Dynamiken werden von derselben Cache-Strategie behandelt, was zu veralteter Hintergrundkontamination, verzögerter Reaktion auf neue Prompts und Verlust des Langzeitgedächtnisses führt. Um dieses Problem zu lösen, schlagen wir Echo-Forcing vor, ein trainingsfreies Szenengedächtnis-Framework, das speziell für interaktive lange Videogenerierung entwickelt wurde und drei Kernmechanismen umfasst: (1) Hierarchisches Temporäres Gedächtnis, das stabile Anker, komprimierte Historie und aktuelle Fenster unter relativer RoPE entkoppelt; (2) Szenenabruf-Frames, die historische Szenen in räumlich strukturierte KV-Representationen komprimieren, um Langzeitabruf zu unterstützen; und (3) Differenzbewusstes Gedächtnisverfall, das konfligierende Token adaptiv gemäß der Diskrepanz zwischen alten und neuen Szenen vergisst. Basierend auf diesen Entwürfen unterstützt Echo-Forcing einheitlich sanfte Übergänge, harte Schnitte und Langzeitszenenabruf unter einem begrenzten Cache-Budget. Umfangreiche Auswertungen auf VBench-Long zeigen weiterhin, dass Echo-Forcing die beste Gesamtleistung sowohl in der Generierung langer Videos als auch in interaktiven Videogenerierungseinstellungen erzielt. Unser Code ist unter https://github.com/mingqiangWu/Echo-Forcing veröffentlicht.

English

Autoregressive video diffusion models enable open-ended generation through local attention and KV caching. However, existing training-free long-video optimization methods mainly focus on stable extension under a single prompt, making them difficult to handle interactive scenarios involving prompt switching, old scene forgetting, and historical scene recall. We identify the core bottleneck as the functional entanglement of historical KV states: stable anchors and recent dynamics are handled by the same cache policy, leading to outdated background contamination, delayed response to new prompts, and loss of long-range memory. To address this issue, we propose Echo-Forcing, a training-free scene memory framework specifically designed for interactive long video generation with three core mechanisms: (1) Hierarchical Temporal Memory, which decouples stable anchors, compressed history, and recent windows under relative RoPE; (2) Scene Recall Frames, which compresses historical scenes into spatially structured KV representations to support long-term recall; and (3) Difference-aware Memory Decay, which adaptively forgets conflicting tokens according to the discrepancy between old and new scenes. Based on these designs, Echo-Forcing uniformly supports smooth transitions, hard cuts, and long-range scene recall under a bounded cache budget. Extensive evaluations on VBench-Long further demonstrate that Echo-Forcing achieves the best overall performance in both long-video generation and interactive video generation settings. Our code is released in https://github.com/mingqiangWu/Echo-Forcing