Consolideren van aandachtseigenschappen voor beeldbewerking met meerdere weergaven
Consolidating Attention Features for Multi-view Image Editing
February 22, 2024
Auteurs: Or Patashnik, Rinon Gal, Daniel Cohen-Or, Jun-Yan Zhu, Fernando De la Torre
cs.AI
Samenvatting
Grootschalige tekst-naar-beeldmodellen maken een breed scala aan beeldbewerkingstechnieken mogelijk, waarbij tekstprompts of zelfs ruimtelijke controles worden gebruikt. Het toepassen van deze bewerkingsmethoden op multi-view afbeeldingen die één scène weergeven, leidt echter tot 3D-inconsistente resultaten. In dit werk richten we ons op geometrische manipulaties gebaseerd op ruimtelijke controle en introduceren we een methode om het bewerkingsproces over verschillende views te consolideren. We bouwen voort op twee inzichten: (1) het behouden van consistente kenmerken gedurende het generatieve proces helpt om consistentie in multi-view bewerking te bereiken, en (2) de queries in self-attention-lagen hebben een aanzienlijke invloed op de beeldstructuur. Daarom stellen we voor om de geometrische consistentie van de bewerkte beelden te verbeteren door de consistentie van de queries af te dwingen. Hiertoe introduceren we QNeRF, een neural radiance field dat getraind is op de interne query-kenmerken van de bewerkte beelden. Eenmaal getraind kan QNeRF 3D-consistente queries renderen, die vervolgens zachtjes terug worden geïnjecteerd in de self-attention-lagen tijdens de generatie, wat de multi-view consistentie aanzienlijk verbetert. We verfijnen het proces door middel van een progressieve, iteratieve methode die queries beter consolideert over de diffusietijdstappen. We vergelijken onze methode met een reeks bestaande technieken en tonen aan dat het betere multi-view consistentie en een hogere trouw aan de inputscène kan bereiken. Deze voordelen stellen ons in staat om NeRFs te trainen met minder visuele artefacten, die beter zijn afgestemd op de doelgeometrie.
English
Large-scale text-to-image models enable a wide range of image editing
techniques, using text prompts or even spatial controls. However, applying
these editing methods to multi-view images depicting a single scene leads to
3D-inconsistent results. In this work, we focus on spatial control-based
geometric manipulations and introduce a method to consolidate the editing
process across various views. We build on two insights: (1) maintaining
consistent features throughout the generative process helps attain consistency
in multi-view editing, and (2) the queries in self-attention layers
significantly influence the image structure. Hence, we propose to improve the
geometric consistency of the edited images by enforcing the consistency of the
queries. To do so, we introduce QNeRF, a neural radiance field trained on the
internal query features of the edited images. Once trained, QNeRF can render
3D-consistent queries, which are then softly injected back into the
self-attention layers during generation, greatly improving multi-view
consistency. We refine the process through a progressive, iterative method that
better consolidates queries across the diffusion timesteps. We compare our
method to a range of existing techniques and demonstrate that it can achieve
better multi-view consistency and higher fidelity to the input scene. These
advantages allow us to train NeRFs with fewer visual artifacts, that are better
aligned with the target geometry.