ChatPaper.aiChatPaper

DICE: Inversión Discreta que Permite la Edición Controlable para Modelos Generativos de Difusión Multinomial y Enmascarados

DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models

October 10, 2024
Autores: Xiaoxiao He, Ligong Han, Quan Dao, Song Wen, Minhao Bai, Di Liu, Han Zhang, Martin Renqiang Min, Felix Juefei-Xu, Chaowei Tan, Bo Liu, Kang Li, Hongdong Li, Junzhou Huang, Faez Ahmed, Akash Srivastava, Dimitris Metaxas
cs.AI

Resumen

Los modelos de difusión discreta han tenido éxito en tareas como la generación de imágenes y el modelado de lenguaje enmascarado, pero enfrentan limitaciones en la edición de contenido controlado. Presentamos DICE (Inversión Discreta para Edición Controlable), el primer enfoque que permite la inversión precisa para modelos de difusión discreta, incluyendo la difusión multinomial y modelos generativos enmascarados. Al grabar secuencias de ruido y patrones de enmascaramiento durante el proceso de difusión inversa, DICE permite la reconstrucción precisa y la edición flexible de datos discretos sin la necesidad de máscaras predefinidas o manipulación de atención. Demostramos la efectividad de DICE en los dominios de imágenes y texto, evaluándolo en modelos como VQ-Diffusion, Paella y RoBERTa. Nuestros resultados muestran que DICE conserva una alta fidelidad de datos al tiempo que mejora las capacidades de edición, ofreciendo nuevas oportunidades para la manipulación de contenido detallada en espacios discretos. Para acceder a la página web del proyecto, visite https://hexiaoxiao-cs.github.io/DICE/.
English
Discrete diffusion models have achieved success in tasks like image generation and masked language modeling but face limitations in controlled content editing. We introduce DICE (Discrete Inversion for Controllable Editing), the first approach to enable precise inversion for discrete diffusion models, including multinomial diffusion and masked generative models. By recording noise sequences and masking patterns during the reverse diffusion process, DICE enables accurate reconstruction and flexible editing of discrete data without the need for predefined masks or attention manipulation. We demonstrate the effectiveness of DICE across both image and text domains, evaluating it on models such as VQ-Diffusion, Paella, and RoBERTa. Our results show that DICE preserves high data fidelity while enhancing editing capabilities, offering new opportunities for fine-grained content manipulation in discrete spaces. For project webpage, see https://hexiaoxiao-cs.github.io/DICE/.

Summary

AI-Generated Summary

PDF192November 16, 2024