FlexEdit: Гибкое и управляемое редактирование изображений на основе диффузии объектов
FlexEdit: Flexible and Controllable Diffusion-based Object-centric Image Editing
March 27, 2024
Авторы: Trong-Tung Nguyen, Duc-Anh Nguyen, Anh Tran, Cuong Pham
cs.AI
Аннотация
Наша работа решает ограничения, выявленные в предыдущих подходах к задачам редактирования, связанным с объектами, таким как нереалистичные результаты из-за расхождений форм и ограниченного контроля при замене или вставке объектов. Для этой цели мы представляем FlexEdit, гибкий и управляемый каркас редактирования объектов, в котором мы итеративно корректируем латентные переменные на каждом шаге денойзинга с использованием нашего блока FlexEdit. Сначала мы оптимизируем латентные переменные во время тестирования для их выравнивания с указанными ограничениями объекта. Затем наш каркас использует адаптивную маску, автоматически извлекаемую во время денойзинга, для защиты фона и бесшовного слияния нового контента с целевым изображением. Мы демонстрируем универсальность FlexEdit в различных задачах редактирования объектов и создаем набор тестов для оценки с образцами как из реальных, так и синтетических изображений, а также новыми метриками оценки, разработанными для редактирования, сосредоточенного на объектах. Мы проводим обширные эксперименты в различных сценариях редактирования, демонстрируя превосходство нашего каркаса редактирования над недавними передовыми методами редактирования изображений по текстовому сопровождению. Наша страница проекта опубликована по адресу https://flex-edit.github.io/.
English
Our work addresses limitations seen in previous approaches for object-centric
editing problems, such as unrealistic results due to shape discrepancies and
limited control in object replacement or insertion. To this end, we introduce
FlexEdit, a flexible and controllable editing framework for objects where we
iteratively adjust latents at each denoising step using our FlexEdit block.
Initially, we optimize latents at test time to align with specified object
constraints. Then, our framework employs an adaptive mask, automatically
extracted during denoising, to protect the background while seamlessly blending
new content into the target image. We demonstrate the versatility of FlexEdit
in various object editing tasks and curate an evaluation test suite with
samples from both real and synthetic images, along with novel evaluation
metrics designed for object-centric editing. We conduct extensive experiments
on different editing scenarios, demonstrating the superiority of our editing
framework over recent advanced text-guided image editing methods. Our project
page is published at https://flex-edit.github.io/.Summary
AI-Generated Summary