ChatPaper.aiChatPaper

Дискретная инверсия шума для масштабируемого авторегрессивного редактирования изображений на основе текста

Discrete Noise Inversion for Next-scale Autoregressive Text-based Image Editing

September 2, 2025
Авторы: Quan Dao, Xiaoxiao He, Ligong Han, Ngan Hoai Nguyen, Amin Heyrani Nobar, Faez Ahmed, Han Zhang, Viet Anh Nguyen, Dimitris Metaxas
cs.AI

Аннотация

Визуальные авторегрессионные модели (VAR) недавно появились как перспективный класс генеративных моделей, достигая производительности, сопоставимой с диффузионными моделями в задачах генерации изображений по тексту. Хотя условная генерация была широко изучена, способность выполнять редактирование изображений на основе текстовых подсказок без дополнительного обучения не менее важна, так как она поддерживает множество практических приложений в реальном мире. В данной статье исследуются возможности редактирования изображений по тексту с использованием VAR путем введения Visual AutoRegressive Inverse Noise (VARIN) — первой техники редактирования на основе инверсии шума, разработанной специально для моделей VAR. VARIN использует новую псевдообратную функцию для выборки argmax, названную Location-aware Argmax Inversion (LAI), для генерации обратных шумов Гумбеля. Эти обратные шумы позволяют точно восстанавливать исходное изображение и обеспечивать целенаправленные, контролируемые правки, соответствующие текстовым подсказкам. Многочисленные эксперименты демонстрируют, что VARIN эффективно изменяет исходные изображения в соответствии с заданными подсказками, при этом значительно сохраняя оригинальный фон и структурные детали, что подтверждает его эффективность как практического подхода к редактированию.
English
Visual autoregressive models (VAR) have recently emerged as a promising class of generative models, achieving performance comparable to diffusion models in text-to-image generation tasks. While conditional generation has been widely explored, the ability to perform prompt-guided image editing without additional training is equally critical, as it supports numerous practical real-world applications. This paper investigates the text-to-image editing capabilities of VAR by introducing Visual AutoRegressive Inverse Noise (VARIN), the first noise inversion-based editing technique designed explicitly for VAR models. VARIN leverages a novel pseudo-inverse function for argmax sampling, named Location-aware Argmax Inversion (LAI), to generate inverse Gumbel noises. These inverse noises enable precise reconstruction of the source image and facilitate targeted, controllable edits aligned with textual prompts. Extensive experiments demonstrate that VARIN effectively modifies source images according to specified prompts while significantly preserving the original background and structural details, thus validating its efficacy as a practical editing approach.
PDF41September 3, 2025