VideoGrain : Modulation de l'attention spatio-temporelle pour l'édition vidéo multi-granulaire
VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing
February 24, 2025
Auteurs: Xiangpeng Yang, Linchao Zhu, Hehe Fan, Yi Yang
cs.AI
Résumé
Les récents progrès dans les modèles de diffusion ont considérablement amélioré les capacités de génération et d'édition vidéo. Cependant, l'édition vidéo multi-granulaire, qui englobe des modifications au niveau de la classe, de l'instance et des parties, reste un défi majeur. Les principales difficultés de l'édition multi-granulaire incluent le désalignement sémantique du contrôle texte-région et le couplage des caractéristiques au sein du modèle de diffusion. Pour résoudre ces difficultés, nous présentons VideoGrain, une approche zero-shot qui module les mécanismes d'attention spatio-temporelle (croisée et auto-attention) pour obtenir un contrôle fin du contenu vidéo. Nous améliorons le contrôle texte-région en amplifiant l'attention de chaque prompt local sur sa région spatialement dissociée correspondante tout en minimisant les interactions avec les zones non pertinentes dans l'attention croisée. De plus, nous améliorons la séparation des caractéristiques en augmentant la conscience intra-région et en réduisant les interférences inter-régions dans l'auto-attention. Des expériences approfondies démontrent que notre méthode atteint des performances de pointe dans des scénarios réels. Notre code, données et démonstrations sont disponibles à l'adresse suivante : https://knightyxp.github.io/VideoGrain_project_page/
English
Recent advancements in diffusion models have significantly improved video
generation and editing capabilities. However, multi-grained video editing,
which encompasses class-level, instance-level, and part-level modifications,
remains a formidable challenge. The major difficulties in multi-grained editing
include semantic misalignment of text-to-region control and feature coupling
within the diffusion model. To address these difficulties, we present
VideoGrain, a zero-shot approach that modulates space-time (cross- and self-)
attention mechanisms to achieve fine-grained control over video content. We
enhance text-to-region control by amplifying each local prompt's attention to
its corresponding spatial-disentangled region while minimizing interactions
with irrelevant areas in cross-attention. Additionally, we improve feature
separation by increasing intra-region awareness and reducing inter-region
interference in self-attention. Extensive experiments demonstrate our method
achieves state-of-the-art performance in real-world scenarios. Our code, data,
and demos are available at https://knightyxp.github.io/VideoGrain_project_page/Summary
AI-Generated Summary