ChatPaper.aiChatPaper

DICE: Diskrete Inversion zur Steuerbaren Bearbeitung für Multinomial Diffusion und Maskierte Generative Modelle

DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models

October 10, 2024
Autoren: Xiaoxiao He, Ligong Han, Quan Dao, Song Wen, Minhao Bai, Di Liu, Han Zhang, Martin Renqiang Min, Felix Juefei-Xu, Chaowei Tan, Bo Liu, Kang Li, Hongdong Li, Junzhou Huang, Faez Ahmed, Akash Srivastava, Dimitris Metaxas
cs.AI

Zusammenfassung

Diskrete Diffusionsmodelle haben Erfolg bei Aufgaben wie der Bildgenerierung und dem maskierten Sprachmodellieren erzielt, stoßen jedoch an Grenzen bei der kontrollierten Inhaltsbearbeitung. Wir stellen DICE (Discrete Inversion for Controllable Editing) vor, den ersten Ansatz zur präzisen Inversion für diskrete Diffusionsmodelle, einschließlich multinomialer Diffusion und maskierter generativer Modelle. Durch Aufzeichnung von Rauschsequenzen und Maskierungsmustern während des umgekehrten Diffusionsprozesses ermöglicht DICE eine genaue Rekonstruktion und flexible Bearbeitung diskreter Daten ohne vordefinierte Masken oder Aufmerksamkeitsmanipulation. Wir zeigen die Wirksamkeit von DICE in Bild- und Textdomänen und evaluieren es an Modellen wie VQ-Diffusion, Paella und RoBERTa. Unsere Ergebnisse zeigen, dass DICE eine hohe Datenfidelität bewahrt und die Bearbeitungsfähigkeiten verbessert, wodurch neue Möglichkeiten für feinkörnige Inhaltsmanipulation in diskreten Räumen geboten werden. Für die Projektwebseite siehe https://hexiaoxiao-cs.github.io/DICE/.
English
Discrete diffusion models have achieved success in tasks like image generation and masked language modeling but face limitations in controlled content editing. We introduce DICE (Discrete Inversion for Controllable Editing), the first approach to enable precise inversion for discrete diffusion models, including multinomial diffusion and masked generative models. By recording noise sequences and masking patterns during the reverse diffusion process, DICE enables accurate reconstruction and flexible editing of discrete data without the need for predefined masks or attention manipulation. We demonstrate the effectiveness of DICE across both image and text domains, evaluating it on models such as VQ-Diffusion, Paella, and RoBERTa. Our results show that DICE preserves high data fidelity while enhancing editing capabilities, offering new opportunities for fine-grained content manipulation in discrete spaces. For project webpage, see https://hexiaoxiao-cs.github.io/DICE/.

Summary

AI-Generated Summary

PDF192November 16, 2024