ChatPaper.aiChatPaper

FlexEdit: Modifica di immagini basata su diffusione, flessibile e controllabile, con focus sugli oggetti

FlexEdit: Flexible and Controllable Diffusion-based Object-centric Image Editing

March 27, 2024
Autori: Trong-Tung Nguyen, Duc-Anh Nguyen, Anh Tran, Cuong Pham
cs.AI

Abstract

Il nostro lavoro affronta le limitazioni osservate negli approcci precedenti per i problemi di editing centrati sugli oggetti, come risultati non realistici dovuti a discrepanze nella forma e controllo limitato nella sostituzione o inserimento di oggetti. A tal fine, introduciamo FlexEdit, un framework di editing flessibile e controllabile per oggetti in cui regoliamo iterativamente i latenti ad ogni passo di denoising utilizzando il nostro blocco FlexEdit. Inizialmente, ottimizziamo i latenti al momento del test per allinearli ai vincoli specificati per l'oggetto. Successivamente, il nostro framework utilizza una maschera adattativa, estratta automaticamente durante il denoising, per proteggere lo sfondo mentre fonde perfettamente nuovi contenuti nell'immagine target. Dimostriamo la versatilità di FlexEdit in varie attività di editing di oggetti e curiamo una suite di valutazione con campioni provenienti sia da immagini reali che sintetiche, insieme a nuove metriche di valutazione progettate per l'editing centrato sugli oggetti. Condividiamo esperimenti estesi su diversi scenari di editing, dimostrando la superiorità del nostro framework rispetto ai recenti metodi avanzati di editing di immagini guidati da testo. La nostra pagina del progetto è pubblicata all'indirizzo https://flex-edit.github.io/.
English
Our work addresses limitations seen in previous approaches for object-centric editing problems, such as unrealistic results due to shape discrepancies and limited control in object replacement or insertion. To this end, we introduce FlexEdit, a flexible and controllable editing framework for objects where we iteratively adjust latents at each denoising step using our FlexEdit block. Initially, we optimize latents at test time to align with specified object constraints. Then, our framework employs an adaptive mask, automatically extracted during denoising, to protect the background while seamlessly blending new content into the target image. We demonstrate the versatility of FlexEdit in various object editing tasks and curate an evaluation test suite with samples from both real and synthetic images, along with novel evaluation metrics designed for object-centric editing. We conduct extensive experiments on different editing scenarios, demonstrating the superiority of our editing framework over recent advanced text-guided image editing methods. Our project page is published at https://flex-edit.github.io/.
PDF111February 8, 2026