VideoGrain: Modulation von Raum-Zeit-Aufmerksamkeit für mehrkörnige VideobearbeitungVideoGrain: Modulating Space-Time Attention for Multi-grained Video
Editing
In jüngster Zeit haben Fortschritte in Diffusionsmodellen die Videoerstellung und -bearbeitung erheblich verbessert. Allerdings bleibt die mehrschichtige Videobearbeitung, die Klassen-, Instanz- und Teilebene umfasst, eine große Herausforderung. Die Hauptprobleme bei der mehrschichtigen Bearbeitung umfassen semantische Missabstimmung der Text-zu-Region-Steuerung und Merkmalskopplung innerhalb des Diffusionsmodells. Um diese Schwierigkeiten anzugehen, präsentieren wir VideoGrain, einen Zero-Shot-Ansatz, der Raum-Zeit-(Kreuz- und Selbst-)Aufmerksamkeitsmechanismen moduliert, um eine fein abgestufte Steuerung über den Videoinhalt zu erreichen. Wir verbessern die Text-zu-Region-Steuerung, indem wir die Aufmerksamkeit jedes lokalen Hinweises auf seine entsprechende räumlich entwirrte Region verstärken und Interaktionen mit irrelevanten Bereichen in der Kreuz-Aufmerksamkeit minimieren. Darüber hinaus verbessern wir die Merkmalsseparation, indem wir das Bewusstsein innerhalb der Region erhöhen und die Störungen zwischen den Regionen in der Selbst-Aufmerksamkeit reduzieren. Umfangreiche Experimente zeigen, dass unsere Methode eine Spitzenleistung in realen Szenarien erreicht. Unser Code, Daten und Demos sind unter https://knightyxp.github.io/VideoGrain_project_page/ verfügbar.