ChatPaper.aiChatPaper

Discrete Noise Inversie voor Next-scale Autoregressieve Tekstgebaseerde Afbeeldingsbewerking

Discrete Noise Inversion for Next-scale Autoregressive Text-based Image Editing

September 2, 2025
Auteurs: Quan Dao, Xiaoxiao He, Ligong Han, Ngan Hoai Nguyen, Amin Heyrani Nobar, Faez Ahmed, Han Zhang, Viet Anh Nguyen, Dimitris Metaxas
cs.AI

Samenvatting

Visuele autoregressieve modellen (VAR) zijn recent naar voren gekomen als een veelbelovende klasse van generatieve modellen, waarbij ze prestaties bereiken die vergelijkbaar zijn met diffusiemodellen in tekst-naar-beeld generatietaken. Hoewel conditionele generatie uitgebreid is onderzocht, is het vermogen om prompt-gestuurd beeldbewerking uit te voeren zonder aanvullende training even cruciaal, omdat het talrijke praktische toepassingen in de echte wereld ondersteunt. Dit artikel onderzoekt de tekst-naar-beeld bewerkingsmogelijkheden van VAR door Visual AutoRegressive Inverse Noise (VARIN) te introduceren, de eerste op ruisinversie gebaseerde bewerkingstechniek die expliciet is ontworpen voor VAR-modellen. VARIN maakt gebruik van een nieuwe pseudo-inverse functie voor argmax-sampling, genaamd Location-aware Argmax Inversion (LAI), om inverse Gumbel-ruis te genereren. Deze inverse ruis maakt een nauwkeurige reconstructie van het bronbeeld mogelijk en faciliteert gerichte, controleerbare bewerkingen die zijn afgestemd op tekstuele prompts. Uitgebreide experimenten tonen aan dat VARIN bronbeelden effectief aanpast volgens gespecificeerde prompts, terwijl het oorspronkelijke achtergrond en structurele details aanzienlijk behouden blijven, wat de effectiviteit ervan als een praktische bewerkingsaanpak valideert.
English
Visual autoregressive models (VAR) have recently emerged as a promising class of generative models, achieving performance comparable to diffusion models in text-to-image generation tasks. While conditional generation has been widely explored, the ability to perform prompt-guided image editing without additional training is equally critical, as it supports numerous practical real-world applications. This paper investigates the text-to-image editing capabilities of VAR by introducing Visual AutoRegressive Inverse Noise (VARIN), the first noise inversion-based editing technique designed explicitly for VAR models. VARIN leverages a novel pseudo-inverse function for argmax sampling, named Location-aware Argmax Inversion (LAI), to generate inverse Gumbel noises. These inverse noises enable precise reconstruction of the source image and facilitate targeted, controllable edits aligned with textual prompts. Extensive experiments demonstrate that VARIN effectively modifies source images according to specified prompts while significantly preserving the original background and structural details, thus validating its efficacy as a practical editing approach.
PDF61September 3, 2025