PixelMan: Согласованное редактирование объектов с моделями диффузии через манипуляцию и генерацию пикселей
PixelMan: Consistent Object Editing with Diffusion Models via Pixel Manipulation and Generation
December 18, 2024
Авторы: Liyao Jiang, Negar Hassanpour, Mohammad Salameh, Mohammadreza Samadi, Jiao He, Fengyu Sun, Di Niu
cs.AI
Аннотация
Недавние исследования исследуют потенциал моделей диффузии (DM) для последовательного редактирования объектов, которое направлено на изменение позиции объекта, его размера, композиции и т. д., сохраняя при этом согласованность объектов и фона без изменения текстуры и атрибутов. Текущие методы времени вывода часто полагаются на инверсию DDIM, что в свою очередь снижает эффективность и достижимую согласованность отредактированных изображений. Недавние методы также используют энергетическое направление, которое итеративно обновляет предсказанный шум и может отводить латентные переменные от исходного изображения, что приводит к искажениям. В данной статье мы предлагаем PixelMan, метод без инверсии и обучения, для достижения последовательного редактирования объектов с помощью Пиксельной Манипуляции и генерации, где мы непосредственно создаем дубликат исходного объекта в целевом местоположении в пространстве пикселей, и вводим эффективный метод выборки для итеративного гармонизирования отредактированного объекта в целевом местоположении и заполнения его исходного местоположения, обеспечивая при этом согласованность изображения путем привязки генерируемого отредактированного изображения к пиксельно-отредактированному изображению, а также путем введения различных техник оптимизации, сохраняющих согласованность во время вывода. Экспериментальные оценки на основе наборов данных для сравнения, а также обширные визуальные сравнения показывают, что уже после 16 шагов вывода PixelMan превосходит ряд современных методов на основе обучения и без обучения (которые обычно требуют 50 шагов) по нескольким задачам последовательного редактирования объектов.
English
Recent research explores the potential of Diffusion Models (DMs) for
consistent object editing, which aims to modify object position, size, and
composition, etc., while preserving the consistency of objects and background
without changing their texture and attributes. Current inference-time methods
often rely on DDIM inversion, which inherently compromises efficiency and the
achievable consistency of edited images. Recent methods also utilize energy
guidance which iteratively updates the predicted noise and can drive the
latents away from the original image, resulting in distortions. In this paper,
we propose PixelMan, an inversion-free and training-free method for achieving
consistent object editing via Pixel Manipulation and generation, where we
directly create a duplicate copy of the source object at target location in the
pixel space, and introduce an efficient sampling approach to iteratively
harmonize the manipulated object into the target location and inpaint its
original location, while ensuring image consistency by anchoring the edited
image to be generated to the pixel-manipulated image as well as by introducing
various consistency-preserving optimization techniques during inference.
Experimental evaluations based on benchmark datasets as well as extensive
visual comparisons show that in as few as 16 inference steps, PixelMan
outperforms a range of state-of-the-art training-based and training-free
methods (usually requiring 50 steps) on multiple consistent object editing
tasks.Summary
AI-Generated Summary