SuperEdit: Correzione e Facilitazione della Supervisione per la Modifica delle Immagini Basata su Istruzioni
SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing
May 5, 2025
Autori: Ming Li, Xin Gu, Fan Chen, Xiaoying Xing, Longyin Wen, Chen Chen, Sijie Zhu
cs.AI
Abstract
A causa delle difficoltà nel raccogliere manualmente dati di editing accurati, i dataset esistenti sono tipicamente costruiti utilizzando vari metodi automatizzati, portando a segnali di supervisione rumorosi causati dalla discrepanza tra le istruzioni di editing e le coppie di immagini originali-modificate. Recenti tentativi cercano di migliorare i modelli di editing generando immagini modificate di qualità superiore, pre-addestrando su task di riconoscimento o introducendo modelli visione-linguaggio (VLMs), ma non riescono a risolvere questo problema fondamentale. In questo articolo, offriamo una soluzione innovativa costruendo istruzioni di editing più efficaci per le coppie di immagini date. Ciò include la correzione delle istruzioni di editing per allinearle meglio alle coppie di immagini originali-modificate e l'uso di istruzioni di editing contrastive per migliorarne ulteriormente l'efficacia. Nello specifico, scopriamo che i modelli di editing mostrano attributi di generazione specifici in diversi passaggi di inferenza, indipendentemente dal testo. Sulla base di questi attributi preesistenti, definiamo una guida unificata per i VLMs per correggere le istruzioni di editing. Tuttavia, ci sono alcuni scenari di editing complessi che non possono essere risolti solo con istruzioni corrette. A tal fine, costruiamo ulteriormente segnali di supervisione contrastive con istruzioni positive e negative e li introduciamo nell'addestramento del modello utilizzando la triplet loss, facilitando così ulteriormente l'efficacia della supervisione. Il nostro metodo non richiede i moduli VLM o i task di pre-addestramento utilizzati in lavori precedenti, offrendo un modo più diretto ed efficiente per fornire migliori segnali di supervisione, e proponendo una soluzione innovativa, semplice ed efficace per l'editing di immagini basato su istruzioni. I risultati su molteplici benchmark dimostrano che il nostro metodo supera significativamente gli approcci esistenti. Rispetto al precedente SOTA SmartEdit, otteniamo un miglioramento del 9,19% sul benchmark Real-Edit con 30 volte meno dati di addestramento e una dimensione del modello 13 volte più piccola.
English
Due to the challenges of manually collecting accurate editing data, existing
datasets are typically constructed using various automated methods, leading to
noisy supervision signals caused by the mismatch between editing instructions
and original-edited image pairs. Recent efforts attempt to improve editing
models through generating higher-quality edited images, pre-training on
recognition tasks, or introducing vision-language models (VLMs) but fail to
resolve this fundamental issue. In this paper, we offer a novel solution by
constructing more effective editing instructions for given image pairs. This
includes rectifying the editing instructions to better align with the
original-edited image pairs and using contrastive editing instructions to
further enhance their effectiveness. Specifically, we find that editing models
exhibit specific generation attributes at different inference steps,
independent of the text. Based on these prior attributes, we define a unified
guide for VLMs to rectify editing instructions. However, there are some
challenging editing scenarios that cannot be resolved solely with rectified
instructions. To this end, we further construct contrastive supervision signals
with positive and negative instructions and introduce them into the model
training using triplet loss, thereby further facilitating supervision
effectiveness. Our method does not require the VLM modules or pre-training
tasks used in previous work, offering a more direct and efficient way to
provide better supervision signals, and providing a novel, simple, and
effective solution for instruction-based image editing. Results on multiple
benchmarks demonstrate that our method significantly outperforms existing
approaches. Compared with previous SOTA SmartEdit, we achieve 9.19%
improvements on the Real-Edit benchmark with 30x less training data and 13x
smaller model size.