Inversion du bruit discret pour l'édition d'images basée sur un texte autorégressif à l'échelle suivante
Discrete Noise Inversion for Next-scale Autoregressive Text-based Image Editing
September 2, 2025
papers.authors: Quan Dao, Xiaoxiao He, Ligong Han, Ngan Hoai Nguyen, Amin Heyrani Nobar, Faez Ahmed, Han Zhang, Viet Anh Nguyen, Dimitris Metaxas
cs.AI
papers.abstract
Les modèles autorégressifs visuels (VAR) ont récemment émergé comme une classe prometteuse de modèles génératifs, atteignant des performances comparables à celles des modèles de diffusion dans les tâches de génération d'images à partir de texte. Bien que la génération conditionnelle ait été largement explorée, la capacité à effectuer des modifications d'images guidées par des prompts sans entraînement supplémentaire est tout aussi cruciale, car elle soutient de nombreuses applications pratiques dans le monde réel. Cet article étudie les capacités de modification d'images à partir de texte des VAR en introduisant Visual AutoRegressive Inverse Noise (VARIN), la première technique de modification basée sur l'inversion de bruit conçue explicitement pour les modèles VAR. VARIN exploite une nouvelle fonction pseudo-inverse pour l'échantillonnage argmax, appelée Location-aware Argmax Inversion (LAI), pour générer des bruits de Gumbel inversés. Ces bruits inversés permettent une reconstruction précise de l'image source et facilitent des modifications ciblées et contrôlées alignées sur les prompts textuels. Des expériences approfondies démontrent que VARIN modifie efficacement les images sources selon les prompts spécifiés tout en préservant significativement l'arrière-plan et les détails structurels originaux, validant ainsi son efficacité en tant qu'approche pratique de modification.
English
Visual autoregressive models (VAR) have recently emerged as a promising class
of generative models, achieving performance comparable to diffusion models in
text-to-image generation tasks. While conditional generation has been widely
explored, the ability to perform prompt-guided image editing without additional
training is equally critical, as it supports numerous practical real-world
applications. This paper investigates the text-to-image editing capabilities of
VAR by introducing Visual AutoRegressive Inverse Noise (VARIN), the first noise
inversion-based editing technique designed explicitly for VAR models. VARIN
leverages a novel pseudo-inverse function for argmax sampling, named
Location-aware Argmax Inversion (LAI), to generate inverse Gumbel noises. These
inverse noises enable precise reconstruction of the source image and facilitate
targeted, controllable edits aligned with textual prompts. Extensive
experiments demonstrate that VARIN effectively modifies source images according
to specified prompts while significantly preserving the original background and
structural details, thus validating its efficacy as a practical editing
approach.