ChatPaper.aiChatPaper

Inversión de Ruido Discreto para la Edición de Imágenes Basadas en Texto Autoregresivo a Escala Superior

Discrete Noise Inversion for Next-scale Autoregressive Text-based Image Editing

September 2, 2025
Autores: Quan Dao, Xiaoxiao He, Ligong Han, Ngan Hoai Nguyen, Amin Heyrani Nobar, Faez Ahmed, Han Zhang, Viet Anh Nguyen, Dimitris Metaxas
cs.AI

Resumen

Los modelos visuales autorregresivos (VAR, por sus siglas en inglés) han surgido recientemente como una clase prometedora de modelos generativos, alcanzando un rendimiento comparable al de los modelos de difusión en tareas de generación de imágenes a partir de texto. Si bien la generación condicional ha sido ampliamente explorada, la capacidad de realizar ediciones de imágenes guiadas por instrucciones sin necesidad de entrenamiento adicional es igualmente crucial, ya que respalda numerosas aplicaciones prácticas en el mundo real. Este artículo investiga las capacidades de edición de imágenes a partir de texto de los modelos VAR mediante la introducción de Visual AutoRegressive Inverse Noise (VARIN), la primera técnica de edición basada en inversión de ruido diseñada explícitamente para modelos VAR. VARIN aprovecha una novedosa función pseudo-inversa para el muestreo argmax, denominada Location-aware Argmax Inversion (LAI), para generar ruidos de Gumbel inversos. Estos ruidos inversos permiten la reconstrucción precisa de la imagen fuente y facilitan ediciones específicas y controlables alineadas con las instrucciones textuales. Experimentos exhaustivos demuestran que VARIN modifica eficazmente las imágenes fuente según las instrucciones especificadas, preservando significativamente el fondo original y los detalles estructurales, validando así su eficacia como un enfoque práctico de edición.
English
Visual autoregressive models (VAR) have recently emerged as a promising class of generative models, achieving performance comparable to diffusion models in text-to-image generation tasks. While conditional generation has been widely explored, the ability to perform prompt-guided image editing without additional training is equally critical, as it supports numerous practical real-world applications. This paper investigates the text-to-image editing capabilities of VAR by introducing Visual AutoRegressive Inverse Noise (VARIN), the first noise inversion-based editing technique designed explicitly for VAR models. VARIN leverages a novel pseudo-inverse function for argmax sampling, named Location-aware Argmax Inversion (LAI), to generate inverse Gumbel noises. These inverse noises enable precise reconstruction of the source image and facilitate targeted, controllable edits aligned with textual prompts. Extensive experiments demonstrate that VARIN effectively modifies source images according to specified prompts while significantly preserving the original background and structural details, thus validating its efficacy as a practical editing approach.
PDF41September 3, 2025