SuperEdit: Het corrigeren en vergemakkelijken van toezicht voor instructiegebaseerde beeldbewerking
SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing
May 5, 2025
Auteurs: Ming Li, Xin Gu, Fan Chen, Xiaoying Xing, Longyin Wen, Chen Chen, Sijie Zhu
cs.AI
Samenvatting
Vanwege de uitdagingen bij het handmatig verzamelen van nauwkeurige bewerkingsgegevens, worden bestaande datasets doorgaans geconstrueerd met behulp van verschillende geautomatiseerde methoden, wat leidt tot ruis in de supervisiesignalen als gevolg van de mismatch tussen bewerkingsinstructies en origineel-bewerkte beeldparen. Recente pogingen proberen bewerkingsmodellen te verbeteren door het genereren van hogere kwaliteit bewerkte beelden, pre-training op herkennings taken, of het introduceren van vision-language modellen (VLMs), maar slagen er niet in dit fundamentele probleem op te lossen. In dit artikel bieden we een nieuwe oplossing door effectievere bewerkingsinstructies te construeren voor gegeven beeldparen. Dit omvat het corrigeren van de bewerkingsinstructies om deze beter af te stemmen op de origineel-bewerkte beeldparen en het gebruik van contrastieve bewerkingsinstructies om hun effectiviteit verder te vergroten. Specifiek vinden we dat bewerkingsmodellen specifieke generatiekenmerken vertonen op verschillende inferentiestappen, onafhankelijk van de tekst. Op basis van deze voorafgaande kenmerken definiëren we een uniforme gids voor VLMs om bewerkingsinstructies te corrigeren. Er zijn echter enkele uitdagende bewerkingsscenario's die niet alleen met gecorrigeerde instructies kunnen worden opgelost. Daarom construeren we verder contrastieve supervisiesignalen met positieve en negatieve instructies en introduceren deze in de modeltraining met behulp van triplet loss, waardoor de supervisie-effectiviteit verder wordt bevorderd. Onze methode vereist niet de VLM-modules of pre-training taken die in eerder werk werden gebruikt, en biedt een meer directe en efficiënte manier om betere supervisiesignalen te leveren, en biedt een nieuwe, eenvoudige en effectieve oplossing voor instructie-gebaseerde beeldbewerking. Resultaten op meerdere benchmarks tonen aan dat onze methode aanzienlijk beter presteert dan bestaande benaderingen. In vergelijking met de vorige SOTA SmartEdit, behalen we 9,19% verbeteringen op de Real-Edit benchmark met 30x minder trainingsgegevens en 13x kleinere modelgrootte.
English
Due to the challenges of manually collecting accurate editing data, existing
datasets are typically constructed using various automated methods, leading to
noisy supervision signals caused by the mismatch between editing instructions
and original-edited image pairs. Recent efforts attempt to improve editing
models through generating higher-quality edited images, pre-training on
recognition tasks, or introducing vision-language models (VLMs) but fail to
resolve this fundamental issue. In this paper, we offer a novel solution by
constructing more effective editing instructions for given image pairs. This
includes rectifying the editing instructions to better align with the
original-edited image pairs and using contrastive editing instructions to
further enhance their effectiveness. Specifically, we find that editing models
exhibit specific generation attributes at different inference steps,
independent of the text. Based on these prior attributes, we define a unified
guide for VLMs to rectify editing instructions. However, there are some
challenging editing scenarios that cannot be resolved solely with rectified
instructions. To this end, we further construct contrastive supervision signals
with positive and negative instructions and introduce them into the model
training using triplet loss, thereby further facilitating supervision
effectiveness. Our method does not require the VLM modules or pre-training
tasks used in previous work, offering a more direct and efficient way to
provide better supervision signals, and providing a novel, simple, and
effective solution for instruction-based image editing. Results on multiple
benchmarks demonstrate that our method significantly outperforms existing
approaches. Compared with previous SOTA SmartEdit, we achieve 9.19%
improvements on the Real-Edit benchmark with 30x less training data and 13x
smaller model size.