FlexEdit : Édition d'images centrée sur les objets basée sur la diffusion, flexible et contrôlable
FlexEdit: Flexible and Controllable Diffusion-based Object-centric Image Editing
March 27, 2024
Auteurs: Trong-Tung Nguyen, Duc-Anh Nguyen, Anh Tran, Cuong Pham
cs.AI
Résumé
Notre travail aborde les limitations observées dans les approches précédentes pour les problèmes d'édition centrés sur les objets, telles que des résultats irréalistes dus à des divergences de forme et un contrôle limité dans le remplacement ou l'insertion d'objets. À cette fin, nous introduisons FlexEdit, un cadre d'édition flexible et contrôlable pour les objets, où nous ajustons itérativement les latents à chaque étape de débruitage en utilisant notre bloc FlexEdit. Initialement, nous optimisons les latents au moment du test pour les aligner avec les contraintes spécifiées de l'objet. Ensuite, notre cadre utilise un masque adaptatif, extrait automatiquement pendant le débruitage, pour protéger l'arrière-plan tout en intégrant de manière fluide le nouveau contenu dans l'image cible. Nous démontrons la polyvalence de FlexEdit dans diverses tâches d'édition d'objets et constituons une suite de tests d'évaluation avec des échantillons provenant d'images réelles et synthétiques, ainsi que de nouvelles métriques d'évaluation conçues pour l'édition centrée sur les objets. Nous menons des expériences approfondies sur différents scénarios d'édition, démontrant la supériorité de notre cadre d'édition par rapport aux méthodes récentes d'édition d'images guidées par texte. Notre page de projet est publiée à l'adresse https://flex-edit.github.io/.
English
Our work addresses limitations seen in previous approaches for object-centric
editing problems, such as unrealistic results due to shape discrepancies and
limited control in object replacement or insertion. To this end, we introduce
FlexEdit, a flexible and controllable editing framework for objects where we
iteratively adjust latents at each denoising step using our FlexEdit block.
Initially, we optimize latents at test time to align with specified object
constraints. Then, our framework employs an adaptive mask, automatically
extracted during denoising, to protect the background while seamlessly blending
new content into the target image. We demonstrate the versatility of FlexEdit
in various object editing tasks and curate an evaluation test suite with
samples from both real and synthetic images, along with novel evaluation
metrics designed for object-centric editing. We conduct extensive experiments
on different editing scenarios, demonstrating the superiority of our editing
framework over recent advanced text-guided image editing methods. Our project
page is published at https://flex-edit.github.io/.Summary
AI-Generated Summary