Konsolidierung von Aufmerksamkeitsmerkmalen für die Bearbeitung von Mehransichtsbildern
Consolidating Attention Features for Multi-view Image Editing
February 22, 2024
Autoren: Or Patashnik, Rinon Gal, Daniel Cohen-Or, Jun-Yan Zhu, Fernando De la Torre
cs.AI
Zusammenfassung
Großskalige Text-zu-Bild-Modelle ermöglichen eine Vielzahl von Bildbearbeitungstechniken, die auf Textprompts oder sogar räumliche Steuerungen zurückgreifen. Die Anwendung dieser Bearbeitungsmethoden auf Multi-View-Bilder, die eine einzelne Szene darstellen, führt jedoch zu 3D-inkonsistenten Ergebnissen. In dieser Arbeit konzentrieren wir uns auf geometrische Manipulationen basierend auf räumlicher Steuerung und führen eine Methode ein, um den Bearbeitungsprozess über verschiedene Ansichten hinweg zu konsolidieren. Wir stützen uns auf zwei Erkenntnisse: (1) Die Beibehaltung konsistenter Merkmale während des Generierungsprozesses hilft, Konsistenz bei der Multi-View-Bearbeitung zu erreichen, und (2) die Abfragen in den Self-Attention-Schichten beeinflussen die Bildstruktur maßgeblich. Daher schlagen wir vor, die geometrische Konsistenz der bearbeiteten Bilder zu verbessern, indem wir die Konsistenz der Abfragen erzwingen. Zu diesem Zweck führen wir QNeRF ein, ein Neural Radiance Field, das auf den internen Abfragemerkmalen der bearbeiteten Bilder trainiert wird. Einmal trainiert, kann QNeRF 3D-konsistente Abfragen rendern, die dann während der Generierung sanft in die Self-Attention-Schichten zurückinjiziert werden, was die Multi-View-Konsistenz erheblich verbessert. Wir verfeinern den Prozess durch eine progressive, iterative Methode, die die Abfragen über die Diffusionszeitpunkte hinweg besser konsolidiert. Wir vergleichen unsere Methode mit einer Reihe bestehender Techniken und zeigen, dass sie eine bessere Multi-View-Konsistenz und eine höhere Treue zur Eingabeszene erreichen kann. Diese Vorteile ermöglichen es uns, NeRFs mit weniger visuellen Artefakten zu trainieren, die besser an die Zielgeometrie angepasst sind.
English
Large-scale text-to-image models enable a wide range of image editing
techniques, using text prompts or even spatial controls. However, applying
these editing methods to multi-view images depicting a single scene leads to
3D-inconsistent results. In this work, we focus on spatial control-based
geometric manipulations and introduce a method to consolidate the editing
process across various views. We build on two insights: (1) maintaining
consistent features throughout the generative process helps attain consistency
in multi-view editing, and (2) the queries in self-attention layers
significantly influence the image structure. Hence, we propose to improve the
geometric consistency of the edited images by enforcing the consistency of the
queries. To do so, we introduce QNeRF, a neural radiance field trained on the
internal query features of the edited images. Once trained, QNeRF can render
3D-consistent queries, which are then softly injected back into the
self-attention layers during generation, greatly improving multi-view
consistency. We refine the process through a progressive, iterative method that
better consolidates queries across the diffusion timesteps. We compare our
method to a range of existing techniques and demonstrate that it can achieve
better multi-view consistency and higher fidelity to the input scene. These
advantages allow us to train NeRFs with fewer visual artifacts, that are better
aligned with the target geometry.