ChatPaper.aiChatPaper

DICE: Inversão Discreta Permitindo Edição Controlável para Difusão Multinomial e Modelos Generativos Mascaramentos

DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models

October 10, 2024
Autores: Xiaoxiao He, Ligong Han, Quan Dao, Song Wen, Minhao Bai, Di Liu, Han Zhang, Martin Renqiang Min, Felix Juefei-Xu, Chaowei Tan, Bo Liu, Kang Li, Hongdong Li, Junzhou Huang, Faez Ahmed, Akash Srivastava, Dimitris Metaxas
cs.AI

Resumo

Os modelos de difusão discreta têm obtido sucesso em tarefas como geração de imagens e modelagem de linguagem mascarada, mas enfrentam limitações na edição de conteúdo controlada. Apresentamos o DICE (Inversão Discreta para Edição Controlada), a primeira abordagem que possibilita a inversão precisa para modelos de difusão discreta, incluindo difusão multinomial e modelos generativos mascarados. Ao gravar sequências de ruído e padrões de mascaramento durante o processo de difusão reversa, o DICE possibilita a reconstrução precisa e a edição flexível de dados discretos sem a necessidade de máscaras predefinidas ou manipulação de atenção. Demonstramos a eficácia do DICE em domínios de imagens e texto, avaliando-o em modelos como VQ-Diffusion, Paella e RoBERTa. Nossos resultados mostram que o DICE preserva alta fidelidade dos dados enquanto aprimora as capacidades de edição, oferecendo novas oportunidades para manipulação de conteúdo detalhada em espaços discretos. Para acessar a página do projeto, visite https://hexiaoxiao-cs.github.io/DICE/.
English
Discrete diffusion models have achieved success in tasks like image generation and masked language modeling but face limitations in controlled content editing. We introduce DICE (Discrete Inversion for Controllable Editing), the first approach to enable precise inversion for discrete diffusion models, including multinomial diffusion and masked generative models. By recording noise sequences and masking patterns during the reverse diffusion process, DICE enables accurate reconstruction and flexible editing of discrete data without the need for predefined masks or attention manipulation. We demonstrate the effectiveness of DICE across both image and text domains, evaluating it on models such as VQ-Diffusion, Paella, and RoBERTa. Our results show that DICE preserves high data fidelity while enhancing editing capabilities, offering new opportunities for fine-grained content manipulation in discrete spaces. For project webpage, see https://hexiaoxiao-cs.github.io/DICE/.

Summary

AI-Generated Summary

PDF192November 16, 2024