Compositionele Videogeneratie als Stroomgelijkmaking
Compositional Video Generation as Flow Equalization
June 10, 2024
Auteurs: Xingyi Yang, Xinchao Wang
cs.AI
Samenvatting
Grootschalige Text-to-Video (T2V) diffusiemodellen hebben recentelijk een ongekende capaciteit getoond om natuurlijke taal beschrijvingen om te zetten in indrukwekkende en fotorealistische video's. Ondanks de veelbelovende resultaten blijft er een belangrijke uitdaging bestaan: deze modellen hebben moeite om complexe compositionele interacties tussen meerdere concepten en acties volledig te begrijpen. Dit probleem doet zich voor wanneer sommige woorden de uiteindelijke video overheersend beïnvloeden, waardoor andere concepten naar de achtergrond worden gedrukt. Om dit probleem aan te pakken, introduceren we Vico, een generiek raamwerk voor compositionele videogeneratie dat expliciet zorgt dat alle concepten goed worden weergegeven. In de kern analyseert Vico hoe invoertokens de gegenereerde video beïnvloeden, en past het model aan om te voorkomen dat een enkel concept domineert. Specifiek extraheert Vico aandachtgewichten uit alle lagen om een ruimtelijk-temporeel aandachtgrafiek op te bouwen, en schat vervolgens de invloed in als de maximale stroom van de bronteksttoken naar de videodoeltoken. Hoewel de directe berekening van aandachtstroom in diffusiemodellen doorgaans onhaalbaar is, bedenken we een efficiënte benadering op basis van substroomgrafieken en gebruiken we een snelle en vectorgebaseerde implementatie, waardoor de stroomberekening beheersbaar en differentieerbaar wordt. Door het ruisachtige latente te updaten om deze stromen in balans te brengen, vangt Vico complexe interacties op en produceert het video's die nauw aansluiten bij tekstuele beschrijvingen. We passen onze methode toe op meerdere diffusiegebaseerde videomodellen voor compositionele T2V en videobewerking. Empirische resultaten tonen aan dat ons raamwerk de compositionele rijkdom en nauwkeurigheid van de gegenereerde video's aanzienlijk verbetert. Bezoek onze website op~https://adamdad.github.io/vico/{https://adamdad.github.io/vico/}.
English
Large-scale Text-to-Video (T2V) diffusion models have recently demonstrated
unprecedented capability to transform natural language descriptions into
stunning and photorealistic videos. Despite the promising results, a
significant challenge remains: these models struggle to fully grasp complex
compositional interactions between multiple concepts and actions. This issue
arises when some words dominantly influence the final video, overshadowing
other concepts.To tackle this problem, we introduce Vico, a generic
framework for compositional video generation that explicitly ensures all
concepts are represented properly. At its core, Vico analyzes how input tokens
influence the generated video, and adjusts the model to prevent any single
concept from dominating. Specifically, Vico extracts attention weights from all
layers to build a spatial-temporal attention graph, and then estimates the
influence as the max-flow from the source text token to the video target
token. Although the direct computation of attention flow in diffusion models is
typically infeasible, we devise an efficient approximation based on subgraph
flows and employ a fast and vectorized implementation, which in turn makes the
flow computation manageable and differentiable. By updating the noisy latent to
balance these flows, Vico captures complex interactions and consequently
produces videos that closely adhere to textual descriptions. We apply our
method to multiple diffusion-based video models for compositional T2V and video
editing. Empirical results demonstrate that our framework significantly
enhances the compositional richness and accuracy of the generated videos. Visit
our website
at~https://adamdad.github.io/vico/{https://adamdad.github.io/vico/}.