VideoGrain: Modulation von Raum-Zeit-Aufmerksamkeit für mehrkörnige Videobearbeitung
VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing
February 24, 2025
Autoren: Xiangpeng Yang, Linchao Zhu, Hehe Fan, Yi Yang
cs.AI
Zusammenfassung
In jüngster Zeit haben Fortschritte in Diffusionsmodellen die Videoerstellung und -bearbeitung erheblich verbessert. Allerdings bleibt die mehrschichtige Videobearbeitung, die Klassen-, Instanz- und Teilebene umfasst, eine große Herausforderung. Die Hauptprobleme bei der mehrschichtigen Bearbeitung umfassen semantische Missabstimmung der Text-zu-Region-Steuerung und Merkmalskopplung innerhalb des Diffusionsmodells. Um diese Schwierigkeiten anzugehen, präsentieren wir VideoGrain, einen Zero-Shot-Ansatz, der Raum-Zeit-(Kreuz- und Selbst-)Aufmerksamkeitsmechanismen moduliert, um eine fein abgestufte Steuerung über den Videoinhalt zu erreichen. Wir verbessern die Text-zu-Region-Steuerung, indem wir die Aufmerksamkeit jedes lokalen Hinweises auf seine entsprechende räumlich entwirrte Region verstärken und Interaktionen mit irrelevanten Bereichen in der Kreuz-Aufmerksamkeit minimieren. Darüber hinaus verbessern wir die Merkmalsseparation, indem wir das Bewusstsein innerhalb der Region erhöhen und die Störungen zwischen den Regionen in der Selbst-Aufmerksamkeit reduzieren. Umfangreiche Experimente zeigen, dass unsere Methode eine Spitzenleistung in realen Szenarien erreicht. Unser Code, Daten und Demos sind unter https://knightyxp.github.io/VideoGrain_project_page/ verfügbar.
English
Recent advancements in diffusion models have significantly improved video
generation and editing capabilities. However, multi-grained video editing,
which encompasses class-level, instance-level, and part-level modifications,
remains a formidable challenge. The major difficulties in multi-grained editing
include semantic misalignment of text-to-region control and feature coupling
within the diffusion model. To address these difficulties, we present
VideoGrain, a zero-shot approach that modulates space-time (cross- and self-)
attention mechanisms to achieve fine-grained control over video content. We
enhance text-to-region control by amplifying each local prompt's attention to
its corresponding spatial-disentangled region while minimizing interactions
with irrelevant areas in cross-attention. Additionally, we improve feature
separation by increasing intra-region awareness and reducing inter-region
interference in self-attention. Extensive experiments demonstrate our method
achieves state-of-the-art performance in real-world scenarios. Our code, data,
and demos are available at https://knightyxp.github.io/VideoGrain_project_page/Summary
AI-Generated Summary