VideoGrain: Modulation von Raum-Zeit-Aufmerksamkeit für mehrkörnige Videobearbeitung

papers.abstract

In jüngster Zeit haben Fortschritte in Diffusionsmodellen die Videoerstellung und -bearbeitung erheblich verbessert. Allerdings bleibt die mehrschichtige Videobearbeitung, die Klassen-, Instanz- und Teilebene umfasst, eine große Herausforderung. Die Hauptprobleme bei der mehrschichtigen Bearbeitung umfassen semantische Missabstimmung der Text-zu-Region-Steuerung und Merkmalskopplung innerhalb des Diffusionsmodells. Um diese Schwierigkeiten anzugehen, präsentieren wir VideoGrain, einen Zero-Shot-Ansatz, der Raum-Zeit-(Kreuz- und Selbst-)Aufmerksamkeitsmechanismen moduliert, um eine fein abgestufte Steuerung über den Videoinhalt zu erreichen. Wir verbessern die Text-zu-Region-Steuerung, indem wir die Aufmerksamkeit jedes lokalen Hinweises auf seine entsprechende räumlich entwirrte Region verstärken und Interaktionen mit irrelevanten Bereichen in der Kreuz-Aufmerksamkeit minimieren. Darüber hinaus verbessern wir die Merkmalsseparation, indem wir das Bewusstsein innerhalb der Region erhöhen und die Störungen zwischen den Regionen in der Selbst-Aufmerksamkeit reduzieren. Umfangreiche Experimente zeigen, dass unsere Methode eine Spitzenleistung in realen Szenarien erreicht. Unser Code, Daten und Demos sind unter https://knightyxp.github.io/VideoGrain_project_page/ verfügbar.

English

Recent advancements in diffusion models have significantly improved video generation and editing capabilities. However, multi-grained video editing, which encompasses class-level, instance-level, and part-level modifications, remains a formidable challenge. The major difficulties in multi-grained editing include semantic misalignment of text-to-region control and feature coupling within the diffusion model. To address these difficulties, we present VideoGrain, a zero-shot approach that modulates space-time (cross- and self-) attention mechanisms to achieve fine-grained control over video content. We enhance text-to-region control by amplifying each local prompt's attention to its corresponding spatial-disentangled region while minimizing interactions with irrelevant areas in cross-attention. Additionally, we improve feature separation by increasing intra-region awareness and reducing inter-region interference in self-attention. Extensive experiments demonstrate our method achieves state-of-the-art performance in real-world scenarios. Our code, data, and demos are available at https://knightyxp.github.io/VideoGrain_project_page/

VideoGrain: Modulation von Raum-Zeit-Aufmerksamkeit für mehrkörnige Videobearbeitung

VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing

papers.abstract

Support