Génération vidéo compositionnelle comme égalisation de flux
Compositional Video Generation as Flow Equalization
June 10, 2024
Auteurs: Xingyi Yang, Xinchao Wang
cs.AI
Résumé
Les modèles de diffusion à grande échelle pour la génération de vidéos à partir de texte (Text-to-Video, T2V) ont récemment démontré une capacité sans précédent à transformer des descriptions en langage naturel en vidéos spectaculaires et photoréalistes. Malgré ces résultats prometteurs, un défi majeur persiste : ces modèles peinent à saisir pleinement les interactions compositionnelles complexes entre plusieurs concepts et actions. Ce problème survient lorsque certains mots influencent de manière dominante la vidéo finale, éclipsant ainsi d'autres concepts. Pour résoudre ce problème, nous introduisons Vico, un cadre générique pour la génération de vidéos compositionnelles qui garantit explicitement que tous les concepts sont correctement représentés. Au cœur de Vico, l'analyse de l'influence des tokens d'entrée sur la vidéo générée permet d'ajuster le modèle pour empêcher qu'un seul concept ne domine. Plus précisément, Vico extrait les poids d'attention de toutes les couches pour construire un graphe d'attention spatio-temporel, puis estime l'influence comme le flux maximal du token source du texte au token cible de la vidéo. Bien que le calcul direct du flux d'attention dans les modèles de diffusion soit généralement irréalisable, nous proposons une approximation efficace basée sur les flux de sous-graphes et utilisons une implémentation rapide et vectorisée, ce qui rend le calcul du flux gérable et différentiable. En mettant à jour le latent bruité pour équilibrer ces flux, Vico capture des interactions complexes et produit ainsi des vidéos qui adhèrent étroitement aux descriptions textuelles. Nous appliquons notre méthode à plusieurs modèles de vidéo basés sur la diffusion pour le T2V compositionnel et l'édition de vidéos. Les résultats empiriques montrent que notre cadre améliore significativement la richesse compositionnelle et la précision des vidéos générées. Visitez notre site web à l'adresse suivante : https://adamdad.github.io/vico/.
English
Large-scale Text-to-Video (T2V) diffusion models have recently demonstrated
unprecedented capability to transform natural language descriptions into
stunning and photorealistic videos. Despite the promising results, a
significant challenge remains: these models struggle to fully grasp complex
compositional interactions between multiple concepts and actions. This issue
arises when some words dominantly influence the final video, overshadowing
other concepts.To tackle this problem, we introduce Vico, a generic
framework for compositional video generation that explicitly ensures all
concepts are represented properly. At its core, Vico analyzes how input tokens
influence the generated video, and adjusts the model to prevent any single
concept from dominating. Specifically, Vico extracts attention weights from all
layers to build a spatial-temporal attention graph, and then estimates the
influence as the max-flow from the source text token to the video target
token. Although the direct computation of attention flow in diffusion models is
typically infeasible, we devise an efficient approximation based on subgraph
flows and employ a fast and vectorized implementation, which in turn makes the
flow computation manageable and differentiable. By updating the noisy latent to
balance these flows, Vico captures complex interactions and consequently
produces videos that closely adhere to textual descriptions. We apply our
method to multiple diffusion-based video models for compositional T2V and video
editing. Empirical results demonstrate that our framework significantly
enhances the compositional richness and accuracy of the generated videos. Visit
our website
at~https://adamdad.github.io/vico/{https://adamdad.github.io/vico/}.Summary
AI-Generated Summary