ChatPaper.aiChatPaper

Inversão de Ruído Discreto para Edição de Imagens Baseada em Texto Autoregressivo em Escala Avançada

Discrete Noise Inversion for Next-scale Autoregressive Text-based Image Editing

September 2, 2025
Autores: Quan Dao, Xiaoxiao He, Ligong Han, Ngan Hoai Nguyen, Amin Heyrani Nobar, Faez Ahmed, Han Zhang, Viet Anh Nguyen, Dimitris Metaxas
cs.AI

Resumo

Modelos autoregressivos visuais (VAR) surgiram recentemente como uma classe promissora de modelos generativos, alcançando desempenho comparável aos modelos de difusão em tarefas de geração de texto para imagem. Embora a geração condicional tenha sido amplamente explorada, a capacidade de realizar edição de imagens guiada por prompts sem treinamento adicional é igualmente crucial, pois suporta inúmeras aplicações práticas do mundo real. Este artigo investiga as capacidades de edição de texto para imagem dos modelos VAR, introduzindo o Visual AutoRegressive Inverse Noise (VARIN), a primeira técnica de edição baseada em inversão de ruído projetada explicitamente para modelos VAR. O VARIN utiliza uma nova função pseudo-inversa para amostragem argmax, denominada Location-aware Argmax Inversion (LAI), para gerar ruídos inversos de Gumbel. Esses ruídos inversos permitem a reconstrução precisa da imagem original e facilitam edições direcionadas e controláveis alinhadas com prompts textuais. Experimentos extensivos demonstram que o VARIN modifica efetivamente as imagens originais de acordo com os prompts especificados, preservando significativamente o fundo original e os detalhes estruturais, validando assim sua eficácia como uma abordagem prática de edição.
English
Visual autoregressive models (VAR) have recently emerged as a promising class of generative models, achieving performance comparable to diffusion models in text-to-image generation tasks. While conditional generation has been widely explored, the ability to perform prompt-guided image editing without additional training is equally critical, as it supports numerous practical real-world applications. This paper investigates the text-to-image editing capabilities of VAR by introducing Visual AutoRegressive Inverse Noise (VARIN), the first noise inversion-based editing technique designed explicitly for VAR models. VARIN leverages a novel pseudo-inverse function for argmax sampling, named Location-aware Argmax Inversion (LAI), to generate inverse Gumbel noises. These inverse noises enable precise reconstruction of the source image and facilitate targeted, controllable edits aligned with textual prompts. Extensive experiments demonstrate that VARIN effectively modifies source images according to specified prompts while significantly preserving the original background and structural details, thus validating its efficacy as a practical editing approach.
PDF51September 3, 2025