ChatPaper.aiChatPaper

FlexEdit: Flexible und kontrollierbare Diffusions-basierte objektorientierte Bildbearbeitung

FlexEdit: Flexible and Controllable Diffusion-based Object-centric Image Editing

March 27, 2024
Autoren: Trong-Tung Nguyen, Duc-Anh Nguyen, Anh Tran, Cuong Pham
cs.AI

Zusammenfassung

Unsere Arbeit befasst sich mit den Einschränkungen, die bei früheren Ansätzen für objektorientierte Bearbeitungsprobleme festgestellt wurden, wie unrealistische Ergebnisse aufgrund von Formunterschieden und begrenzte Kontrolle bei Objektersatz oder -einfügung. Zu diesem Zweck stellen wir FlexEdit vor, ein flexibles und steuerbares Bearbeitungsframework für Objekte, bei dem wir iterativ Latente bei jedem Entrauschungsschritt mithilfe unseres FlexEdit-Blocks anpassen. Zunächst optimieren wir die Latenten zur Testzeit, um sie mit den angegebenen Objektbeschränkungen in Einklang zu bringen. Anschließend verwendet unser Framework eine adaptive Maske, die während der Entrauschung automatisch extrahiert wird, um den Hintergrund zu schützen und neue Inhalte nahtlos in das Zielbild einzufügen. Wir zeigen die Vielseitigkeit von FlexEdit in verschiedenen Objektbearbeitungsaufgaben auf und erstellen einen Bewertungstestkatalog mit Beispielen aus sowohl realen als auch synthetischen Bildern, zusammen mit neuartigen Bewertungsmetriken, die für objektorientierte Bearbeitung entwickelt wurden. Wir führen umfangreiche Experimente in verschiedenen Bearbeitungsszenarien durch und zeigen die Überlegenheit unseres Bearbeitungsframeworks gegenüber kürzlich entwickelten textgesteuerten Bildbearbeitungsmethoden. Unsere Projektseite ist unter https://flex-edit.github.io/ veröffentlicht.
English
Our work addresses limitations seen in previous approaches for object-centric editing problems, such as unrealistic results due to shape discrepancies and limited control in object replacement or insertion. To this end, we introduce FlexEdit, a flexible and controllable editing framework for objects where we iteratively adjust latents at each denoising step using our FlexEdit block. Initially, we optimize latents at test time to align with specified object constraints. Then, our framework employs an adaptive mask, automatically extracted during denoising, to protect the background while seamlessly blending new content into the target image. We demonstrate the versatility of FlexEdit in various object editing tasks and curate an evaluation test suite with samples from both real and synthetic images, along with novel evaluation metrics designed for object-centric editing. We conduct extensive experiments on different editing scenarios, demonstrating the superiority of our editing framework over recent advanced text-guided image editing methods. Our project page is published at https://flex-edit.github.io/.

Summary

AI-Generated Summary

PDF111December 15, 2024