SuperEdit: Het corrigeren en vergemakkelijken van toezicht voor instructiegebaseerde beeldbewerking

Samenvatting

Vanwege de uitdagingen bij het handmatig verzamelen van nauwkeurige bewerkingsgegevens, worden bestaande datasets doorgaans geconstrueerd met behulp van verschillende geautomatiseerde methoden, wat leidt tot ruis in de supervisiesignalen als gevolg van de mismatch tussen bewerkingsinstructies en origineel-bewerkte beeldparen. Recente pogingen proberen bewerkingsmodellen te verbeteren door het genereren van hogere kwaliteit bewerkte beelden, pre-training op herkennings taken, of het introduceren van vision-language modellen (VLMs), maar slagen er niet in dit fundamentele probleem op te lossen. In dit artikel bieden we een nieuwe oplossing door effectievere bewerkingsinstructies te construeren voor gegeven beeldparen. Dit omvat het corrigeren van de bewerkingsinstructies om deze beter af te stemmen op de origineel-bewerkte beeldparen en het gebruik van contrastieve bewerkingsinstructies om hun effectiviteit verder te vergroten. Specifiek vinden we dat bewerkingsmodellen specifieke generatiekenmerken vertonen op verschillende inferentiestappen, onafhankelijk van de tekst. Op basis van deze voorafgaande kenmerken definiëren we een uniforme gids voor VLMs om bewerkingsinstructies te corrigeren. Er zijn echter enkele uitdagende bewerkingsscenario's die niet alleen met gecorrigeerde instructies kunnen worden opgelost. Daarom construeren we verder contrastieve supervisiesignalen met positieve en negatieve instructies en introduceren deze in de modeltraining met behulp van triplet loss, waardoor de supervisie-effectiviteit verder wordt bevorderd. Onze methode vereist niet de VLM-modules of pre-training taken die in eerder werk werden gebruikt, en biedt een meer directe en efficiënte manier om betere supervisiesignalen te leveren, en biedt een nieuwe, eenvoudige en effectieve oplossing voor instructie-gebaseerde beeldbewerking. Resultaten op meerdere benchmarks tonen aan dat onze methode aanzienlijk beter presteert dan bestaande benaderingen. In vergelijking met de vorige SOTA SmartEdit, behalen we 9,19% verbeteringen op de Real-Edit benchmark met 30x minder trainingsgegevens en 13x kleinere modelgrootte.

English

Due to the challenges of manually collecting accurate editing data, existing datasets are typically constructed using various automated methods, leading to noisy supervision signals caused by the mismatch between editing instructions and original-edited image pairs. Recent efforts attempt to improve editing models through generating higher-quality edited images, pre-training on recognition tasks, or introducing vision-language models (VLMs) but fail to resolve this fundamental issue. In this paper, we offer a novel solution by constructing more effective editing instructions for given image pairs. This includes rectifying the editing instructions to better align with the original-edited image pairs and using contrastive editing instructions to further enhance their effectiveness. Specifically, we find that editing models exhibit specific generation attributes at different inference steps, independent of the text. Based on these prior attributes, we define a unified guide for VLMs to rectify editing instructions. However, there are some challenging editing scenarios that cannot be resolved solely with rectified instructions. To this end, we further construct contrastive supervision signals with positive and negative instructions and introduce them into the model training using triplet loss, thereby further facilitating supervision effectiveness. Our method does not require the VLM modules or pre-training tasks used in previous work, offering a more direct and efficient way to provide better supervision signals, and providing a novel, simple, and effective solution for instruction-based image editing. Results on multiple benchmarks demonstrate that our method significantly outperforms existing approaches. Compared with previous SOTA SmartEdit, we achieve 9.19% improvements on the Real-Edit benchmark with 30x less training data and 13x smaller model size.

SuperEdit: Het corrigeren en vergemakkelijken van toezicht voor instructiegebaseerde beeldbewerking

SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing

Samenvatting

Support