Inversione del Rumore Discreto per l'Editing di Immagini Basato su Testo Autoregressivo su Scala Successiva
Discrete Noise Inversion for Next-scale Autoregressive Text-based Image Editing
September 2, 2025
Autori: Quan Dao, Xiaoxiao He, Ligong Han, Ngan Hoai Nguyen, Amin Heyrani Nobar, Faez Ahmed, Han Zhang, Viet Anh Nguyen, Dimitris Metaxas
cs.AI
Abstract
I modelli autoregressivi visivi (VAR) sono recentemente emersi come una classe promettente di modelli generativi, raggiungendo prestazioni comparabili ai modelli di diffusione nei compiti di generazione di immagini da testo. Sebbene la generazione condizionata sia stata ampiamente esplorata, la capacità di eseguire la modifica di immagini guidata da prompt senza ulteriore addestramento è altrettanto cruciale, poiché supporta numerose applicazioni pratiche nel mondo reale. Questo articolo indaga le capacità di modifica di immagini da testo dei VAR introducendo Visual AutoRegressive Inverse Noise (VARIN), la prima tecnica di modifica basata sull'inversione del rumore progettata esplicitamente per i modelli VAR. VARIN sfrutta una nuova funzione pseudo-inversa per il campionamento argmax, denominata Location-aware Argmax Inversion (LAI), per generare rumori di Gumbel inversi. Questi rumori inversi consentono una ricostruzione precisa dell'immagine sorgente e facilitano modifiche mirate e controllabili allineate con i prompt testuali. Esperimenti estensivi dimostrano che VARIN modifica efficacemente le immagini sorgente in base ai prompt specificati preservando significativamente lo sfondo originale e i dettagli strutturali, validando così la sua efficacia come approccio pratico alla modifica.
English
Visual autoregressive models (VAR) have recently emerged as a promising class
of generative models, achieving performance comparable to diffusion models in
text-to-image generation tasks. While conditional generation has been widely
explored, the ability to perform prompt-guided image editing without additional
training is equally critical, as it supports numerous practical real-world
applications. This paper investigates the text-to-image editing capabilities of
VAR by introducing Visual AutoRegressive Inverse Noise (VARIN), the first noise
inversion-based editing technique designed explicitly for VAR models. VARIN
leverages a novel pseudo-inverse function for argmax sampling, named
Location-aware Argmax Inversion (LAI), to generate inverse Gumbel noises. These
inverse noises enable precise reconstruction of the source image and facilitate
targeted, controllable edits aligned with textual prompts. Extensive
experiments demonstrate that VARIN effectively modifies source images according
to specified prompts while significantly preserving the original background and
structural details, thus validating its efficacy as a practical editing
approach.