VideoGrain : Modulation de l'attention spatio-temporelle pour l'édition vidéo multi-granulaireVideoGrain: Modulating Space-Time Attention for Multi-grained Video
Editing
Les récents progrès dans les modèles de diffusion ont considérablement amélioré les capacités de génération et d'édition vidéo. Cependant, l'édition vidéo multi-granulaire, qui englobe des modifications au niveau de la classe, de l'instance et des parties, reste un défi majeur. Les principales difficultés de l'édition multi-granulaire incluent le désalignement sémantique du contrôle texte-région et le couplage des caractéristiques au sein du modèle de diffusion. Pour résoudre ces difficultés, nous présentons VideoGrain, une approche zero-shot qui module les mécanismes d'attention spatio-temporelle (croisée et auto-attention) pour obtenir un contrôle fin du contenu vidéo. Nous améliorons le contrôle texte-région en amplifiant l'attention de chaque prompt local sur sa région spatialement dissociée correspondante tout en minimisant les interactions avec les zones non pertinentes dans l'attention croisée. De plus, nous améliorons la séparation des caractéristiques en augmentant la conscience intra-région et en réduisant les interférences inter-régions dans l'auto-attention. Des expériences approfondies démontrent que notre méthode atteint des performances de pointe dans des scénarios réels. Notre code, données et démonstrations sont disponibles à l'adresse suivante : https://knightyxp.github.io/VideoGrain_project_page/