Consolideren van aandachtseigenschappen voor beeldbewerking met meerdere weergaven

Samenvatting

Grootschalige tekst-naar-beeldmodellen maken een breed scala aan beeldbewerkingstechnieken mogelijk, waarbij tekstprompts of zelfs ruimtelijke controles worden gebruikt. Het toepassen van deze bewerkingsmethoden op multi-view afbeeldingen die één scène weergeven, leidt echter tot 3D-inconsistente resultaten. In dit werk richten we ons op geometrische manipulaties gebaseerd op ruimtelijke controle en introduceren we een methode om het bewerkingsproces over verschillende views te consolideren. We bouwen voort op twee inzichten: (1) het behouden van consistente kenmerken gedurende het generatieve proces helpt om consistentie in multi-view bewerking te bereiken, en (2) de queries in self-attention-lagen hebben een aanzienlijke invloed op de beeldstructuur. Daarom stellen we voor om de geometrische consistentie van de bewerkte beelden te verbeteren door de consistentie van de queries af te dwingen. Hiertoe introduceren we QNeRF, een neural radiance field dat getraind is op de interne query-kenmerken van de bewerkte beelden. Eenmaal getraind kan QNeRF 3D-consistente queries renderen, die vervolgens zachtjes terug worden geïnjecteerd in de self-attention-lagen tijdens de generatie, wat de multi-view consistentie aanzienlijk verbetert. We verfijnen het proces door middel van een progressieve, iteratieve methode die queries beter consolideert over de diffusietijdstappen. We vergelijken onze methode met een reeks bestaande technieken en tonen aan dat het betere multi-view consistentie en een hogere trouw aan de inputscène kan bereiken. Deze voordelen stellen ons in staat om NeRFs te trainen met minder visuele artefacten, die beter zijn afgestemd op de doelgeometrie.

English

Large-scale text-to-image models enable a wide range of image editing techniques, using text prompts or even spatial controls. However, applying these editing methods to multi-view images depicting a single scene leads to 3D-inconsistent results. In this work, we focus on spatial control-based geometric manipulations and introduce a method to consolidate the editing process across various views. We build on two insights: (1) maintaining consistent features throughout the generative process helps attain consistency in multi-view editing, and (2) the queries in self-attention layers significantly influence the image structure. Hence, we propose to improve the geometric consistency of the edited images by enforcing the consistency of the queries. To do so, we introduce QNeRF, a neural radiance field trained on the internal query features of the edited images. Once trained, QNeRF can render 3D-consistent queries, which are then softly injected back into the self-attention layers during generation, greatly improving multi-view consistency. We refine the process through a progressive, iterative method that better consolidates queries across the diffusion timesteps. We compare our method to a range of existing techniques and demonstrate that it can achieve better multi-view consistency and higher fidelity to the input scene. These advantages allow us to train NeRFs with fewer visual artifacts, that are better aligned with the target geometry.

Consolideren van aandachtseigenschappen voor beeldbewerking met meerdere weergaven

Consolidating Attention Features for Multi-view Image Editing

Samenvatting

Support