ChatPaper.aiChatPaper

DICE: Дискретная Инверсия, Обеспечивающая Управляемое Редактирование для Мультиномиальных Диффузионных и Маскированных Генеративных Моделей

DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models

October 10, 2024
Авторы: Xiaoxiao He, Ligong Han, Quan Dao, Song Wen, Minhao Bai, Di Liu, Han Zhang, Martin Renqiang Min, Felix Juefei-Xu, Chaowei Tan, Bo Liu, Kang Li, Hongdong Li, Junzhou Huang, Faez Ahmed, Akash Srivastava, Dimitris Metaxas
cs.AI

Аннотация

Дискретные модели диффузии достигли успеха в задачах, таких как генерация изображений и маскированное моделирование языка, но сталкиваются с ограничениями в контролируемом редактировании контента. Мы представляем DICE (Дискретная Инверсия для Контролируемого Редактирования), первый подход, позволяющий точную инверсию для дискретных моделей диффузии, включая мультиномиальные модели диффузии и маскированные генеративные модели. Записывая последовательности шума и шаблоны маскировки во время обратного процесса диффузии, DICE обеспечивает точную реконструкцию и гибкое редактирование дискретных данных без необходимости предопределенных масок или манипуляций внимания. Мы демонстрируем эффективность DICE как в области изображений, так и текста, оценивая его на моделях, таких как VQ-Diffusion, Paella и RoBERTa. Наши результаты показывают, что DICE сохраняет высокую достоверность данных, улучшая возможности редактирования и предлагая новые возможности для манипулирования содержанием в дискретных пространствах. Для веб-страницы проекта см. https://hexiaoxiao-cs.github.io/DICE/.
English
Discrete diffusion models have achieved success in tasks like image generation and masked language modeling but face limitations in controlled content editing. We introduce DICE (Discrete Inversion for Controllable Editing), the first approach to enable precise inversion for discrete diffusion models, including multinomial diffusion and masked generative models. By recording noise sequences and masking patterns during the reverse diffusion process, DICE enables accurate reconstruction and flexible editing of discrete data without the need for predefined masks or attention manipulation. We demonstrate the effectiveness of DICE across both image and text domains, evaluating it on models such as VQ-Diffusion, Paella, and RoBERTa. Our results show that DICE preserves high data fidelity while enhancing editing capabilities, offering new opportunities for fine-grained content manipulation in discrete spaces. For project webpage, see https://hexiaoxiao-cs.github.io/DICE/.

Summary

AI-Generated Summary

PDF192November 16, 2024