Kompositionelle Videogenerierung als Flussausgleich
Compositional Video Generation as Flow Equalization
June 10, 2024
Autoren: Xingyi Yang, Xinchao Wang
cs.AI
Zusammenfassung
Groß angelegte Text-zu-Video (T2V) Diffusionsmodelle haben kürzlich eine beispiellose Fähigkeit gezeigt, natürlichsprachliche Beschreibungen in atemberaubende und fotorealistische Videos zu verwandeln. Trotz der vielversprechenden Ergebnisse bleibt eine bedeutende Herausforderung bestehen: Diese Modelle haben Schwierigkeiten, komplexe kompositorische Interaktionen zwischen mehreren Konzepten und Handlungen vollständig zu erfassen. Dieses Problem tritt auf, wenn einige Wörter den endgültigen Videoinhalt dominierend beeinflussen und andere Konzepte überschatten. Um dieses Problem anzugehen, stellen wir Vico vor, ein generisches Rahmenwerk für die kompositorische Videogenerierung, das explizit sicherstellt, dass alle Konzepte angemessen dargestellt werden. Im Kern analysiert Vico, wie Eingabetoken das generierte Video beeinflussen, und passt das Modell an, um zu verhindern, dass ein einzelnes Konzept dominiert. Speziell extrahiert Vico Aufmerksamkeitsgewichte aus allen Schichten, um einen räumlich-zeitlichen Aufmerksamkeitsgraphen aufzubauen, und schätzt dann den Einfluss als maximalen Fluss vom Quelltexttoken zum Videozieltoken. Obwohl die direkte Berechnung des Aufmerksamkeitsflusses in Diffusionsmodellen typischerweise nicht durchführbar ist, entwickeln wir eine effiziente Approximation basierend auf Teilgraphflüssen und verwenden eine schnelle und vektorisierte Implementierung, die wiederum die Flussberechnung handhabbar und differenzierbar macht. Durch Aktualisierung des rauschenden Latenten zur Ausbalancierung dieser Flüsse erfasst Vico komplexe Interaktionen und produziert folglich Videos, die eng an den textlichen Beschreibungen haften. Wir wenden unsere Methode auf mehrere diffusionsbasierte Videomodelle für kompositorisches T2V und Videobearbeitung an. Empirische Ergebnisse zeigen, dass unser Rahmenwerk die kompositorische Vielfalt und Genauigkeit der generierten Videos signifikant verbessert. Besuchen Sie unsere Website unter https://adamdad.github.io/vico/.
English
Large-scale Text-to-Video (T2V) diffusion models have recently demonstrated
unprecedented capability to transform natural language descriptions into
stunning and photorealistic videos. Despite the promising results, a
significant challenge remains: these models struggle to fully grasp complex
compositional interactions between multiple concepts and actions. This issue
arises when some words dominantly influence the final video, overshadowing
other concepts.To tackle this problem, we introduce Vico, a generic
framework for compositional video generation that explicitly ensures all
concepts are represented properly. At its core, Vico analyzes how input tokens
influence the generated video, and adjusts the model to prevent any single
concept from dominating. Specifically, Vico extracts attention weights from all
layers to build a spatial-temporal attention graph, and then estimates the
influence as the max-flow from the source text token to the video target
token. Although the direct computation of attention flow in diffusion models is
typically infeasible, we devise an efficient approximation based on subgraph
flows and employ a fast and vectorized implementation, which in turn makes the
flow computation manageable and differentiable. By updating the noisy latent to
balance these flows, Vico captures complex interactions and consequently
produces videos that closely adhere to textual descriptions. We apply our
method to multiple diffusion-based video models for compositional T2V and video
editing. Empirical results demonstrate that our framework significantly
enhances the compositional richness and accuracy of the generated videos. Visit
our website
at~https://adamdad.github.io/vico/{https://adamdad.github.io/vico/}.Summary
AI-Generated Summary