Konsolidierung von Aufmerksamkeitsmerkmalen für die Bearbeitung von Mehransichtsbildern

papers.abstract

Großskalige Text-zu-Bild-Modelle ermöglichen eine Vielzahl von Bildbearbeitungstechniken, die auf Textprompts oder sogar räumliche Steuerungen zurückgreifen. Die Anwendung dieser Bearbeitungsmethoden auf Multi-View-Bilder, die eine einzelne Szene darstellen, führt jedoch zu 3D-inkonsistenten Ergebnissen. In dieser Arbeit konzentrieren wir uns auf geometrische Manipulationen basierend auf räumlicher Steuerung und führen eine Methode ein, um den Bearbeitungsprozess über verschiedene Ansichten hinweg zu konsolidieren. Wir stützen uns auf zwei Erkenntnisse: (1) Die Beibehaltung konsistenter Merkmale während des Generierungsprozesses hilft, Konsistenz bei der Multi-View-Bearbeitung zu erreichen, und (2) die Abfragen in den Self-Attention-Schichten beeinflussen die Bildstruktur maßgeblich. Daher schlagen wir vor, die geometrische Konsistenz der bearbeiteten Bilder zu verbessern, indem wir die Konsistenz der Abfragen erzwingen. Zu diesem Zweck führen wir QNeRF ein, ein Neural Radiance Field, das auf den internen Abfragemerkmalen der bearbeiteten Bilder trainiert wird. Einmal trainiert, kann QNeRF 3D-konsistente Abfragen rendern, die dann während der Generierung sanft in die Self-Attention-Schichten zurückinjiziert werden, was die Multi-View-Konsistenz erheblich verbessert. Wir verfeinern den Prozess durch eine progressive, iterative Methode, die die Abfragen über die Diffusionszeitpunkte hinweg besser konsolidiert. Wir vergleichen unsere Methode mit einer Reihe bestehender Techniken und zeigen, dass sie eine bessere Multi-View-Konsistenz und eine höhere Treue zur Eingabeszene erreichen kann. Diese Vorteile ermöglichen es uns, NeRFs mit weniger visuellen Artefakten zu trainieren, die besser an die Zielgeometrie angepasst sind.

English

Large-scale text-to-image models enable a wide range of image editing techniques, using text prompts or even spatial controls. However, applying these editing methods to multi-view images depicting a single scene leads to 3D-inconsistent results. In this work, we focus on spatial control-based geometric manipulations and introduce a method to consolidate the editing process across various views. We build on two insights: (1) maintaining consistent features throughout the generative process helps attain consistency in multi-view editing, and (2) the queries in self-attention layers significantly influence the image structure. Hence, we propose to improve the geometric consistency of the edited images by enforcing the consistency of the queries. To do so, we introduce QNeRF, a neural radiance field trained on the internal query features of the edited images. Once trained, QNeRF can render 3D-consistent queries, which are then softly injected back into the self-attention layers during generation, greatly improving multi-view consistency. We refine the process through a progressive, iterative method that better consolidates queries across the diffusion timesteps. We compare our method to a range of existing techniques and demonstrate that it can achieve better multi-view consistency and higher fidelity to the input scene. These advantages allow us to train NeRFs with fewer visual artifacts, that are better aligned with the target geometry.

Konsolidierung von Aufmerksamkeitsmerkmalen für die Bearbeitung von Mehransichtsbildern

Consolidating Attention Features for Multi-view Image Editing

papers.abstract

Support