ChatPaper.aiChatPaper

DICE: Inversione Discreta per Consentire Modifiche Controllabili per la Diffusione Multinomiale e i Modelli Generativi Mascherati

DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models

October 10, 2024
Autori: Xiaoxiao He, Ligong Han, Quan Dao, Song Wen, Minhao Bai, Di Liu, Han Zhang, Martin Renqiang Min, Felix Juefei-Xu, Chaowei Tan, Bo Liu, Kang Li, Hongdong Li, Junzhou Huang, Faez Ahmed, Akash Srivastava, Dimitris Metaxas
cs.AI

Abstract

I modelli di diffusione discreta hanno ottenuto successo in compiti come la generazione di immagini e il modellamento del linguaggio mascherato, ma affrontano limitazioni nella modifica controllata dei contenuti. Introduciamo DICE (Discrete Inversion for Controllable Editing), il primo approccio che consente un'inversione precisa per i modelli di diffusione discreta, inclusi i modelli di diffusione multinomiale e generativi mascherati. Registrando sequenze di rumore e modelli di mascheramento durante il processo di diffusione inversa, DICE consente una ricostruzione accurata e una modifica flessibile dei dati discreti senza la necessità di maschere predefinite o manipolazioni dell'attenzione. Dimostriamo l'efficacia di DICE sia nel dominio delle immagini che del testo, valutandolo su modelli come VQ-Diffusion, Paella e RoBERTa. I nostri risultati mostrano che DICE conserva un'alta fedeltà dei dati mentre potenzia le capacità di modifica, offrendo nuove opportunità per la manipolazione dei contenuti dettagliata negli spazi discreti. Per la pagina web del progetto, consultare https://hexiaoxiao-cs.github.io/DICE/.
English
Discrete diffusion models have achieved success in tasks like image generation and masked language modeling but face limitations in controlled content editing. We introduce DICE (Discrete Inversion for Controllable Editing), the first approach to enable precise inversion for discrete diffusion models, including multinomial diffusion and masked generative models. By recording noise sequences and masking patterns during the reverse diffusion process, DICE enables accurate reconstruction and flexible editing of discrete data without the need for predefined masks or attention manipulation. We demonstrate the effectiveness of DICE across both image and text domains, evaluating it on models such as VQ-Diffusion, Paella, and RoBERTa. Our results show that DICE preserves high data fidelity while enhancing editing capabilities, offering new opportunities for fine-grained content manipulation in discrete spaces. For project webpage, see https://hexiaoxiao-cs.github.io/DICE/.
PDF192November 16, 2024