Diskrete Rauschinversion für die nächste Skala der autoregressiven textbasierten Bildbearbeitung
Discrete Noise Inversion for Next-scale Autoregressive Text-based Image Editing
September 2, 2025
papers.authors: Quan Dao, Xiaoxiao He, Ligong Han, Ngan Hoai Nguyen, Amin Heyrani Nobar, Faez Ahmed, Han Zhang, Viet Anh Nguyen, Dimitris Metaxas
cs.AI
papers.abstract
Visuelle autoregressive Modelle (VAR) haben sich kürzlich als vielversprechende Klasse von generativen Modellen etabliert, die in Text-zu-Bild-Generierungsaufgaben eine Leistung erzielen, die mit der von Diffusionsmodellen vergleichbar ist. Während die bedingte Generierung bereits umfassend erforscht wurde, ist die Fähigkeit, promptgesteuerte Bildbearbeitung ohne zusätzliches Training durchzuführen, ebenso entscheidend, da sie zahlreiche praktische Anwendungen in der realen Welt unterstützt. Diese Arbeit untersucht die Text-zu-Bild-Bearbeitungsfähigkeiten von VAR durch die Einführung von Visual AutoRegressive Inverse Noise (VARIN), der ersten auf Rauschinversion basierenden Bearbeitungstechnik, die explizit für VAR-Modelle entwickelt wurde. VARIN nutzt eine neuartige Pseudo-Inverse-Funktion für das Argmax-Sampling, genannt Location-aware Argmax Inversion (LAI), um inverse Gumbel-Rauschen zu erzeugen. Diese inversen Rauschen ermöglichen eine präzise Rekonstruktion des Quellbildes und erleichtern gezielte, kontrollierbare Bearbeitungen, die mit textuellen Prompts abgestimmt sind. Umfangreiche Experimente zeigen, dass VARIN Quellbilder effektiv gemäß spezifizierter Prompts modifiziert, während es gleichzeitig den ursprünglichen Hintergrund und strukturelle Details signifikant bewahrt, wodurch seine Wirksamkeit als praktischer Bearbeitungsansatz validiert wird.
English
Visual autoregressive models (VAR) have recently emerged as a promising class
of generative models, achieving performance comparable to diffusion models in
text-to-image generation tasks. While conditional generation has been widely
explored, the ability to perform prompt-guided image editing without additional
training is equally critical, as it supports numerous practical real-world
applications. This paper investigates the text-to-image editing capabilities of
VAR by introducing Visual AutoRegressive Inverse Noise (VARIN), the first noise
inversion-based editing technique designed explicitly for VAR models. VARIN
leverages a novel pseudo-inverse function for argmax sampling, named
Location-aware Argmax Inversion (LAI), to generate inverse Gumbel noises. These
inverse noises enable precise reconstruction of the source image and facilitate
targeted, controllable edits aligned with textual prompts. Extensive
experiments demonstrate that VARIN effectively modifies source images according
to specified prompts while significantly preserving the original background and
structural details, thus validating its efficacy as a practical editing
approach.