DICE: 다항 분포 확산 및 가려진 생성 모델을 위한 제어 가능한 편집을 가능하게 하는 이산 역전환
DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models
October 10, 2024
저자: Xiaoxiao He, Ligong Han, Quan Dao, Song Wen, Minhao Bai, Di Liu, Han Zhang, Martin Renqiang Min, Felix Juefei-Xu, Chaowei Tan, Bo Liu, Kang Li, Hongdong Li, Junzhou Huang, Faez Ahmed, Akash Srivastava, Dimitris Metaxas
cs.AI
초록
이산 확산 모델은 이미지 생성 및 가려진 언어 모델링과 같은 작업에서 성공을 거두었지만 제어된 콘텐츠 편집에서 제한을 겪고 있습니다. 우리는 DICE (이산 확산 모델을 위한 정밀 역전 방법)를 소개합니다. 이는 다항식 확산 및 가려진 생성 모델을 포함한 이산 확산 모델에 대한 정확한 역전을 가능하게 하는 첫 번째 접근 방식입니다. DICE는 역 확산 과정 중에 노이즈 시퀀스와 마스킹 패턴을 기록함으로써 사전 정의된 마스크나 주의 조작 없이 이산 데이터의 정확한 재구성과 유연한 편집을 가능하게 합니다. 우리는 VQ-확산, Paella, RoBERTa와 같은 모델에서 DICE의 효과를 입증하며 이미지 및 텍스트 도메인에서 그 효과를 평가합니다. 우리의 결과는 DICE가 높은 데이터 충실성을 유지하면서 편집 기능을 향상시키며, 이산 공간에서 세밀한 콘텐츠 조작에 대한 새로운 기회를 제공한다는 것을 보여줍니다. 프로젝트 웹페이지는 https://hexiaoxiao-cs.github.io/DICE/에서 확인할 수 있습니다.
English
Discrete diffusion models have achieved success in tasks like image
generation and masked language modeling but face limitations in controlled
content editing. We introduce DICE (Discrete Inversion for Controllable
Editing), the first approach to enable precise inversion for discrete diffusion
models, including multinomial diffusion and masked generative models. By
recording noise sequences and masking patterns during the reverse diffusion
process, DICE enables accurate reconstruction and flexible editing of discrete
data without the need for predefined masks or attention manipulation. We
demonstrate the effectiveness of DICE across both image and text domains,
evaluating it on models such as VQ-Diffusion, Paella, and RoBERTa. Our results
show that DICE preserves high data fidelity while enhancing editing
capabilities, offering new opportunities for fine-grained content manipulation
in discrete spaces. For project webpage, see
https://hexiaoxiao-cs.github.io/DICE/.Summary
AI-Generated Summary