ChatPaper.aiChatPaper

Mischung von Kontexten für die Erzeugung langer Videos

Mixture of Contexts for Long Video Generation

August 28, 2025
papers.authors: Shengqu Cai, Ceyuan Yang, Lvmin Zhang, Yuwei Guo, Junfei Xiao, Ziyan Yang, Yinghao Xu, Zhenheng Yang, Alan Yuille, Leonidas Guibas, Maneesh Agrawala, Lu Jiang, Gordon Wetzstein
cs.AI

papers.abstract

Die Erzeugung langer Videos ist im Kern ein Problem des Langzeitgedächtnisses: Modelle müssen wichtige Ereignisse über einen langen Zeitraum hinweg behalten und abrufen können, ohne zusammenzubrechen oder abzudriften. Die Skalierung von Diffusions-Transformatoren zur Generierung von Videos mit langem Kontext ist jedoch grundlegend durch die quadratischen Kosten der Selbstaufmerksamkeit begrenzt, was Speicher und Berechnung für lange Sequenzen unhandlich und schwer zu optimieren macht. Wir formulieren die Generierung von Videos mit langem Kontext als eine interne Informationsabfrage und schlagen ein einfaches, lernbares Modul für sparsame Aufmerksamkeitsrouting vor, Mixture of Contexts (MoC), als effektive Engine für das Langzeitgedächtnis. In MoC wählt jede Abfrage dynamisch einige informative Abschnitte sowie obligatorische Anker (Beschriftungen, lokale Fenster) aus, um sie zu berücksichtigen, mit kausalem Routing, das Schleifenschlüsse verhindert. Wenn wir die Daten skalieren und das Routing schrittweise vereinfachen, weist das Modell Rechenleistung der relevanten Geschichte zu und bewahrt Identitäten, Handlungen und Szenen über Minuten hinweg. Effizienz ergibt sich als Nebenprodukt der Abfrage (nahezu lineare Skalierung), was praktisches Training und Synthese ermöglicht und das Entstehen von Gedächtnis und Konsistenz im Minutenmaßstab fördert.
English
Long video generation is fundamentally a long context memory problem: models must retain and retrieve salient events across a long range without collapsing or drifting. However, scaling diffusion transformers to generate long-context videos is fundamentally limited by the quadratic cost of self-attention, which makes memory and computation intractable and difficult to optimize for long sequences. We recast long-context video generation as an internal information retrieval task and propose a simple, learnable sparse attention routing module, Mixture of Contexts (MoC), as an effective long-term memory retrieval engine. In MoC, each query dynamically selects a few informative chunks plus mandatory anchors (caption, local windows) to attend to, with causal routing that prevents loop closures. As we scale the data and gradually sparsify the routing, the model allocates compute to salient history, preserving identities, actions, and scenes over minutes of content. Efficiency follows as a byproduct of retrieval (near-linear scaling), which enables practical training and synthesis, and the emergence of memory and consistency at the scale of minutes.
PDF212August 29, 2025