PixelMan: Edición Consistente de Objetos con Modelos de Difusión a través de Manipulación y Generación de Píxeles
PixelMan: Consistent Object Editing with Diffusion Models via Pixel Manipulation and Generation
December 18, 2024
Autores: Liyao Jiang, Negar Hassanpour, Mohammad Salameh, Mohammadreza Samadi, Jiao He, Fengyu Sun, Di Niu
cs.AI
Resumen
Investigaciones recientes exploran el potencial de los Modelos de Difusión (DMs) para la edición consistente de objetos, que tiene como objetivo modificar la posición, tamaño y composición de los objetos, entre otros, manteniendo la consistencia de los objetos y el fondo sin alterar su textura y atributos. Los métodos actuales en tiempo de inferencia a menudo dependen de la inversión de DDIM, lo que compromete inherentemente la eficiencia y la consistencia alcanzable de las imágenes editadas. Los métodos recientes también utilizan guía de energía que actualiza de forma iterativa el ruido predicho y puede alejar los latentes de la imagen original, lo que resulta en distorsiones. En este documento, proponemos PixelMan, un método sin inversión y sin entrenamiento para lograr una edición consistente de objetos a través de la Manipulación y generación de píxeles, donde creamos directamente una copia duplicada del objeto fuente en la ubicación objetivo en el espacio de píxeles e introducimos un enfoque de muestreo eficiente para armonizar de forma iterativa el objeto manipulado en la ubicación objetivo e inpaint su ubicación original, asegurando la consistencia de la imagen anclando la imagen editada a generar a la imagen manipulada por píxeles, e introduciendo diversas técnicas de optimización que preservan la consistencia durante la inferencia. Las evaluaciones experimentales basadas en conjuntos de datos de referencia, así como extensas comparaciones visuales, muestran que en tan solo 16 pasos de inferencia, PixelMan supera a una variedad de métodos de vanguardia basados en entrenamiento y sin entrenamiento (que generalmente requieren 50 pasos) en múltiples tareas de edición consistente de objetos.
English
Recent research explores the potential of Diffusion Models (DMs) for
consistent object editing, which aims to modify object position, size, and
composition, etc., while preserving the consistency of objects and background
without changing their texture and attributes. Current inference-time methods
often rely on DDIM inversion, which inherently compromises efficiency and the
achievable consistency of edited images. Recent methods also utilize energy
guidance which iteratively updates the predicted noise and can drive the
latents away from the original image, resulting in distortions. In this paper,
we propose PixelMan, an inversion-free and training-free method for achieving
consistent object editing via Pixel Manipulation and generation, where we
directly create a duplicate copy of the source object at target location in the
pixel space, and introduce an efficient sampling approach to iteratively
harmonize the manipulated object into the target location and inpaint its
original location, while ensuring image consistency by anchoring the edited
image to be generated to the pixel-manipulated image as well as by introducing
various consistency-preserving optimization techniques during inference.
Experimental evaluations based on benchmark datasets as well as extensive
visual comparisons show that in as few as 16 inference steps, PixelMan
outperforms a range of state-of-the-art training-based and training-free
methods (usually requiring 50 steps) on multiple consistent object editing
tasks.Summary
AI-Generated Summary