ChatPaper.aiChatPaper

DICE: Discrete Inversie die Controleerbare Bewerking mogelijk maakt voor Multinomiale Diffusie en Gemaskeerde Generatieve Modellen

DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models

October 10, 2024
Auteurs: Xiaoxiao He, Ligong Han, Quan Dao, Song Wen, Minhao Bai, Di Liu, Han Zhang, Martin Renqiang Min, Felix Juefei-Xu, Chaowei Tan, Bo Liu, Kang Li, Hongdong Li, Junzhou Huang, Faez Ahmed, Akash Srivastava, Dimitris Metaxas
cs.AI

Samenvatting

Discrete diffusiemodellen hebben succes behaald in taken zoals beeldgeneratie en gemaskeerde taalmodellering, maar worden geconfronteerd met beperkingen bij gecontroleerde inhoudsbewerking. We introduceren DICE (Discrete Inversie voor Controleerbare Bewerking), de eerste benadering om precieze inversie mogelijk te maken voor discrete diffusiemodellen, inclusief multinomiale diffusie en gemaskeerde generatieve modellen. Door ruisreeksen en maskerpatronen op te nemen tijdens het omgekeerde diffusieproces, maakt DICE nauwkeurige reconstructie en flexibele bewerking van discrete gegevens mogelijk zonder de noodzaak van vooraf gedefinieerde maskers of aandachtsmanipulatie. We tonen de effectiviteit van DICE aan in zowel beeld- als tekstgebieden, waarbij we het evalueren op modellen zoals VQ-Diffusion, Paella en RoBERTa. Onze resultaten tonen aan dat DICE een hoge gegevensgetrouwheid behoudt terwijl het bewerkingsmogelijkheden verbetert, en nieuwe kansen biedt voor fijnmazige inhoudsmanipulatie in discrete ruimtes. Voor de projectwebpagina, zie https://hexiaoxiao-cs.github.io/DICE/.
English
Discrete diffusion models have achieved success in tasks like image generation and masked language modeling but face limitations in controlled content editing. We introduce DICE (Discrete Inversion for Controllable Editing), the first approach to enable precise inversion for discrete diffusion models, including multinomial diffusion and masked generative models. By recording noise sequences and masking patterns during the reverse diffusion process, DICE enables accurate reconstruction and flexible editing of discrete data without the need for predefined masks or attention manipulation. We demonstrate the effectiveness of DICE across both image and text domains, evaluating it on models such as VQ-Diffusion, Paella, and RoBERTa. Our results show that DICE preserves high data fidelity while enhancing editing capabilities, offering new opportunities for fine-grained content manipulation in discrete spaces. For project webpage, see https://hexiaoxiao-cs.github.io/DICE/.

Summary

AI-Generated Summary

PDF192November 16, 2024