ChatPaper.aiChatPaper

Génération vidéo compositionnelle comme égalisation de flux

Compositional Video Generation as Flow Equalization

June 10, 2024
Auteurs: Xingyi Yang, Xinchao Wang
cs.AI

Résumé

Les modèles de diffusion à grande échelle pour la génération de vidéos à partir de texte (Text-to-Video, T2V) ont récemment démontré une capacité sans précédent à transformer des descriptions en langage naturel en vidéos spectaculaires et photoréalistes. Malgré ces résultats prometteurs, un défi majeur persiste : ces modèles peinent à saisir pleinement les interactions compositionnelles complexes entre plusieurs concepts et actions. Ce problème survient lorsque certains mots influencent de manière dominante la vidéo finale, éclipsant ainsi d'autres concepts. Pour résoudre ce problème, nous introduisons Vico, un cadre générique pour la génération de vidéos compositionnelles qui garantit explicitement que tous les concepts sont correctement représentés. Au cœur de Vico, l'analyse de l'influence des tokens d'entrée sur la vidéo générée permet d'ajuster le modèle pour empêcher qu'un seul concept ne domine. Plus précisément, Vico extrait les poids d'attention de toutes les couches pour construire un graphe d'attention spatio-temporel, puis estime l'influence comme le flux maximal du token source du texte au token cible de la vidéo. Bien que le calcul direct du flux d'attention dans les modèles de diffusion soit généralement irréalisable, nous proposons une approximation efficace basée sur les flux de sous-graphes et utilisons une implémentation rapide et vectorisée, ce qui rend le calcul du flux gérable et différentiable. En mettant à jour le latent bruité pour équilibrer ces flux, Vico capture des interactions complexes et produit ainsi des vidéos qui adhèrent étroitement aux descriptions textuelles. Nous appliquons notre méthode à plusieurs modèles de vidéo basés sur la diffusion pour le T2V compositionnel et l'édition de vidéos. Les résultats empiriques montrent que notre cadre améliore significativement la richesse compositionnelle et la précision des vidéos générées. Visitez notre site web à l'adresse suivante : https://adamdad.github.io/vico/.
English
Large-scale Text-to-Video (T2V) diffusion models have recently demonstrated unprecedented capability to transform natural language descriptions into stunning and photorealistic videos. Despite the promising results, a significant challenge remains: these models struggle to fully grasp complex compositional interactions between multiple concepts and actions. This issue arises when some words dominantly influence the final video, overshadowing other concepts.To tackle this problem, we introduce Vico, a generic framework for compositional video generation that explicitly ensures all concepts are represented properly. At its core, Vico analyzes how input tokens influence the generated video, and adjusts the model to prevent any single concept from dominating. Specifically, Vico extracts attention weights from all layers to build a spatial-temporal attention graph, and then estimates the influence as the max-flow from the source text token to the video target token. Although the direct computation of attention flow in diffusion models is typically infeasible, we devise an efficient approximation based on subgraph flows and employ a fast and vectorized implementation, which in turn makes the flow computation manageable and differentiable. By updating the noisy latent to balance these flows, Vico captures complex interactions and consequently produces videos that closely adhere to textual descriptions. We apply our method to multiple diffusion-based video models for compositional T2V and video editing. Empirical results demonstrate that our framework significantly enhances the compositional richness and accuracy of the generated videos. Visit our website at~https://adamdad.github.io/vico/{https://adamdad.github.io/vico/}.

Summary

AI-Generated Summary

PDF141November 28, 2024