SuperEdit: Verbesserung und Vereinfachung der Überwachung für anweisungsbasierte Bildbearbeitung
SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing
May 5, 2025
Autoren: Ming Li, Xin Gu, Fan Chen, Xiaoying Xing, Longyin Wen, Chen Chen, Sijie Zhu
cs.AI
Zusammenfassung
Aufgrund der Herausforderungen bei der manuellen Erfassung präziser Bearbeitungsdaten werden bestehende Datensätze typischerweise mit verschiedenen automatisierten Methoden erstellt, was zu verrauschten Überwachungssignalen führt, die durch die Diskrepanz zwischen Bearbeitungsanweisungen und Original-Bearbeitungs-Bildpaaren verursacht werden. Jüngste Bemühungen versuchen, Bearbeitungsmodelle durch die Generierung höherwertiger bearbeiteter Bilder, Vorabtraining auf Erkennungsaufgaben oder die Einführung von Vision-Language-Modellen (VLMs) zu verbessern, scheitern jedoch daran, dieses grundlegende Problem zu lösen. In diesem Artikel bieten wir eine neuartige Lösung, indem wir effektivere Bearbeitungsanweisungen für gegebene Bildpaare konstruieren. Dies umfasst die Korrektur der Bearbeitungsanweisungen, um sie besser mit den Original-Bearbeitungs-Bildpaaren in Einklang zu bringen, sowie die Verwendung kontrastiver Bearbeitungsanweisungen, um deren Wirksamkeit weiter zu steigern. Insbesondere stellen wir fest, dass Bearbeitungsmodelle in verschiedenen Inferenzschritten spezifische Generierungsattribute aufweisen, die unabhängig vom Text sind. Basierend auf diesen vorherigen Attributen definieren wir eine einheitliche Anleitung für VLMs, um Bearbeitungsanweisungen zu korrigieren. Es gibt jedoch einige anspruchsvolle Bearbeitungsszenarien, die nicht allein mit korrigierten Anweisungen gelöst werden können. Zu diesem Zweck konstruieren wir weiterhin kontrastive Überwachungssignale mit positiven und negativen Anweisungen und führen sie mithilfe von Triplet-Loss in das Modelltraining ein, wodurch die Wirksamkeit der Überwachung weiter gefördert wird. Unsere Methode erfordert weder die VLM-Module noch die Vorabtrainingsaufgaben, die in früheren Arbeiten verwendet wurden, und bietet einen direkteren und effizienteren Weg, um bessere Überwachungssignale bereitzustellen. Sie stellt somit eine neuartige, einfache und effektive Lösung für anweisungsbasierte Bildbearbeitung dar. Ergebnisse auf mehreren Benchmarks zeigen, dass unsere Methode bestehende Ansätze deutlich übertrifft. Im Vergleich zum bisherigen SOTA SmartEdit erzielen wir eine Verbesserung von 9,19 % auf dem Real-Edit-Benchmark bei 30-mal weniger Trainingsdaten und einer 13-mal kleineren Modellgröße.
English
Due to the challenges of manually collecting accurate editing data, existing
datasets are typically constructed using various automated methods, leading to
noisy supervision signals caused by the mismatch between editing instructions
and original-edited image pairs. Recent efforts attempt to improve editing
models through generating higher-quality edited images, pre-training on
recognition tasks, or introducing vision-language models (VLMs) but fail to
resolve this fundamental issue. In this paper, we offer a novel solution by
constructing more effective editing instructions for given image pairs. This
includes rectifying the editing instructions to better align with the
original-edited image pairs and using contrastive editing instructions to
further enhance their effectiveness. Specifically, we find that editing models
exhibit specific generation attributes at different inference steps,
independent of the text. Based on these prior attributes, we define a unified
guide for VLMs to rectify editing instructions. However, there are some
challenging editing scenarios that cannot be resolved solely with rectified
instructions. To this end, we further construct contrastive supervision signals
with positive and negative instructions and introduce them into the model
training using triplet loss, thereby further facilitating supervision
effectiveness. Our method does not require the VLM modules or pre-training
tasks used in previous work, offering a more direct and efficient way to
provide better supervision signals, and providing a novel, simple, and
effective solution for instruction-based image editing. Results on multiple
benchmarks demonstrate that our method significantly outperforms existing
approaches. Compared with previous SOTA SmartEdit, we achieve 9.19%
improvements on the Real-Edit benchmark with 30x less training data and 13x
smaller model size.Summary
AI-Generated Summary