ChatPaper.aiChatPaper

FlexEdit : Édition d'images centrée sur les objets basée sur la diffusion, flexible et contrôlable

FlexEdit: Flexible and Controllable Diffusion-based Object-centric Image Editing

March 27, 2024
Auteurs: Trong-Tung Nguyen, Duc-Anh Nguyen, Anh Tran, Cuong Pham
cs.AI

Résumé

Notre travail aborde les limitations observées dans les approches précédentes pour les problèmes d'édition centrés sur les objets, telles que des résultats irréalistes dus à des divergences de forme et un contrôle limité dans le remplacement ou l'insertion d'objets. À cette fin, nous introduisons FlexEdit, un cadre d'édition flexible et contrôlable pour les objets, où nous ajustons itérativement les latents à chaque étape de débruitage en utilisant notre bloc FlexEdit. Initialement, nous optimisons les latents au moment du test pour les aligner avec les contraintes spécifiées de l'objet. Ensuite, notre cadre utilise un masque adaptatif, extrait automatiquement pendant le débruitage, pour protéger l'arrière-plan tout en intégrant de manière fluide le nouveau contenu dans l'image cible. Nous démontrons la polyvalence de FlexEdit dans diverses tâches d'édition d'objets et constituons une suite de tests d'évaluation avec des échantillons provenant d'images réelles et synthétiques, ainsi que de nouvelles métriques d'évaluation conçues pour l'édition centrée sur les objets. Nous menons des expériences approfondies sur différents scénarios d'édition, démontrant la supériorité de notre cadre d'édition par rapport aux méthodes récentes d'édition d'images guidées par texte. Notre page de projet est publiée à l'adresse https://flex-edit.github.io/.
English
Our work addresses limitations seen in previous approaches for object-centric editing problems, such as unrealistic results due to shape discrepancies and limited control in object replacement or insertion. To this end, we introduce FlexEdit, a flexible and controllable editing framework for objects where we iteratively adjust latents at each denoising step using our FlexEdit block. Initially, we optimize latents at test time to align with specified object constraints. Then, our framework employs an adaptive mask, automatically extracted during denoising, to protect the background while seamlessly blending new content into the target image. We demonstrate the versatility of FlexEdit in various object editing tasks and curate an evaluation test suite with samples from both real and synthetic images, along with novel evaluation metrics designed for object-centric editing. We conduct extensive experiments on different editing scenarios, demonstrating the superiority of our editing framework over recent advanced text-guided image editing methods. Our project page is published at https://flex-edit.github.io/.

Summary

AI-Generated Summary

PDF111December 15, 2024