Diskrete Rauschinversion für die nächste Skala der autoregressiven textbasierten Bildbearbeitung

papers.abstract

Visuelle autoregressive Modelle (VAR) haben sich kürzlich als vielversprechende Klasse von generativen Modellen etabliert, die in Text-zu-Bild-Generierungsaufgaben eine Leistung erzielen, die mit der von Diffusionsmodellen vergleichbar ist. Während die bedingte Generierung bereits umfassend erforscht wurde, ist die Fähigkeit, promptgesteuerte Bildbearbeitung ohne zusätzliches Training durchzuführen, ebenso entscheidend, da sie zahlreiche praktische Anwendungen in der realen Welt unterstützt. Diese Arbeit untersucht die Text-zu-Bild-Bearbeitungsfähigkeiten von VAR durch die Einführung von Visual AutoRegressive Inverse Noise (VARIN), der ersten auf Rauschinversion basierenden Bearbeitungstechnik, die explizit für VAR-Modelle entwickelt wurde. VARIN nutzt eine neuartige Pseudo-Inverse-Funktion für das Argmax-Sampling, genannt Location-aware Argmax Inversion (LAI), um inverse Gumbel-Rauschen zu erzeugen. Diese inversen Rauschen ermöglichen eine präzise Rekonstruktion des Quellbildes und erleichtern gezielte, kontrollierbare Bearbeitungen, die mit textuellen Prompts abgestimmt sind. Umfangreiche Experimente zeigen, dass VARIN Quellbilder effektiv gemäß spezifizierter Prompts modifiziert, während es gleichzeitig den ursprünglichen Hintergrund und strukturelle Details signifikant bewahrt, wodurch seine Wirksamkeit als praktischer Bearbeitungsansatz validiert wird.

English

Visual autoregressive models (VAR) have recently emerged as a promising class of generative models, achieving performance comparable to diffusion models in text-to-image generation tasks. While conditional generation has been widely explored, the ability to perform prompt-guided image editing without additional training is equally critical, as it supports numerous practical real-world applications. This paper investigates the text-to-image editing capabilities of VAR by introducing Visual AutoRegressive Inverse Noise (VARIN), the first noise inversion-based editing technique designed explicitly for VAR models. VARIN leverages a novel pseudo-inverse function for argmax sampling, named Location-aware Argmax Inversion (LAI), to generate inverse Gumbel noises. These inverse noises enable precise reconstruction of the source image and facilitate targeted, controllable edits aligned with textual prompts. Extensive experiments demonstrate that VARIN effectively modifies source images according to specified prompts while significantly preserving the original background and structural details, thus validating its efficacy as a practical editing approach.

Diskrete Rauschinversion für die nächste Skala der autoregressiven textbasierten Bildbearbeitung

Discrete Noise Inversion for Next-scale Autoregressive Text-based Image Editing

papers.abstract

Support