DICE : Inversion Discrète Permettant une Édition Contrôlable pour la Diffusion Multinomiale et les Modèles Génératifs Masqués
DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models
October 10, 2024
Auteurs: Xiaoxiao He, Ligong Han, Quan Dao, Song Wen, Minhao Bai, Di Liu, Han Zhang, Martin Renqiang Min, Felix Juefei-Xu, Chaowei Tan, Bo Liu, Kang Li, Hongdong Li, Junzhou Huang, Faez Ahmed, Akash Srivastava, Dimitris Metaxas
cs.AI
Résumé
Les modèles de diffusion discrète ont connu du succès dans des tâches telles que la génération d'images et la modélisation de langage masquée, mais rencontrent des limites dans l'édition de contenu contrôlé. Nous présentons DICE (Inversion Discrète pour l'Édition Contrôlée), la première approche permettant une inversion précise pour les modèles de diffusion discrète, y compris la diffusion multinomiale et les modèles génératifs masqués. En enregistrant les séquences de bruit et les motifs de masquage lors du processus de diffusion inverse, DICE permet une reconstruction précise et une édition flexible des données discrètes sans avoir besoin de masques prédéfinis ou de manipulation de l'attention. Nous démontrons l'efficacité de DICE dans les domaines de l'image et du texte, en l'évaluant sur des modèles tels que VQ-Diffusion, Paella et RoBERTa. Nos résultats montrent que DICE préserve une grande fidélité des données tout en améliorant les capacités d'édition, offrant de nouvelles opportunités pour la manipulation de contenu détaillée dans des espaces discrets. Pour la page web du projet, consultez https://hexiaoxiao-cs.github.io/DICE/.
English
Discrete diffusion models have achieved success in tasks like image
generation and masked language modeling but face limitations in controlled
content editing. We introduce DICE (Discrete Inversion for Controllable
Editing), the first approach to enable precise inversion for discrete diffusion
models, including multinomial diffusion and masked generative models. By
recording noise sequences and masking patterns during the reverse diffusion
process, DICE enables accurate reconstruction and flexible editing of discrete
data without the need for predefined masks or attention manipulation. We
demonstrate the effectiveness of DICE across both image and text domains,
evaluating it on models such as VQ-Diffusion, Paella, and RoBERTa. Our results
show that DICE preserves high data fidelity while enhancing editing
capabilities, offering new opportunities for fine-grained content manipulation
in discrete spaces. For project webpage, see
https://hexiaoxiao-cs.github.io/DICE/.Summary
AI-Generated Summary