ChatPaper.aiChatPaper

Consolidação de Recursos de Atenção para Edição de Imagens Multi-visão

Consolidating Attention Features for Multi-view Image Editing

February 22, 2024
Autores: Or Patashnik, Rinon Gal, Daniel Cohen-Or, Jun-Yan Zhu, Fernando De la Torre
cs.AI

Resumo

Modelos de grande escala de texto para imagem permitem uma ampla gama de técnicas de edição de imagens, utilizando prompts de texto ou até mesmo controles espaciais. No entanto, aplicar esses métodos de edição a imagens multi-visão que retratam uma única cena resulta em inconsistências 3D. Neste trabalho, focamos em manipulações geométricas baseadas em controle espacial e introduzimos um método para consolidar o processo de edição em várias visões. Baseamo-nos em dois insights: (1) manter características consistentes ao longo do processo generativo ajuda a alcançar consistência na edição multi-visão, e (2) as consultas nas camadas de auto-atenção influenciam significativamente a estrutura da imagem. Portanto, propomos melhorar a consistência geométrica das imagens editadas ao reforçar a consistência das consultas. Para isso, introduzimos o QNeRF, um campo de radiação neural treinado nas características internas de consulta das imagens editadas. Uma vez treinado, o QNeRF pode renderizar consultas 3D consistentes, que são então suavemente injetadas de volta nas camadas de auto-atenção durante a geração, melhorando significativamente a consistência multi-visão. Refinamos o processo por meio de um método progressivo e iterativo que consolida melhor as consultas ao longo dos passos de difusão. Comparamos nosso método a uma variedade de técnicas existentes e demonstramos que ele pode alcançar melhor consistência multi-visão e maior fidelidade à cena de entrada. Essas vantagens nos permitem treinar NeRFs com menos artefatos visuais, que estão melhor alinhados com a geometria alvo.
English
Large-scale text-to-image models enable a wide range of image editing techniques, using text prompts or even spatial controls. However, applying these editing methods to multi-view images depicting a single scene leads to 3D-inconsistent results. In this work, we focus on spatial control-based geometric manipulations and introduce a method to consolidate the editing process across various views. We build on two insights: (1) maintaining consistent features throughout the generative process helps attain consistency in multi-view editing, and (2) the queries in self-attention layers significantly influence the image structure. Hence, we propose to improve the geometric consistency of the edited images by enforcing the consistency of the queries. To do so, we introduce QNeRF, a neural radiance field trained on the internal query features of the edited images. Once trained, QNeRF can render 3D-consistent queries, which are then softly injected back into the self-attention layers during generation, greatly improving multi-view consistency. We refine the process through a progressive, iterative method that better consolidates queries across the diffusion timesteps. We compare our method to a range of existing techniques and demonstrate that it can achieve better multi-view consistency and higher fidelity to the input scene. These advantages allow us to train NeRFs with fewer visual artifacts, that are better aligned with the target geometry.
PDF81February 8, 2026