SuperEdit: Verbesserung und Vereinfachung der Überwachung für anweisungsbasierte Bildbearbeitung

papers.abstract

Aufgrund der Herausforderungen bei der manuellen Erfassung präziser Bearbeitungsdaten werden bestehende Datensätze typischerweise mit verschiedenen automatisierten Methoden erstellt, was zu verrauschten Überwachungssignalen führt, die durch die Diskrepanz zwischen Bearbeitungsanweisungen und Original-Bearbeitungs-Bildpaaren verursacht werden. Jüngste Bemühungen versuchen, Bearbeitungsmodelle durch die Generierung höherwertiger bearbeiteter Bilder, Vorabtraining auf Erkennungsaufgaben oder die Einführung von Vision-Language-Modellen (VLMs) zu verbessern, scheitern jedoch daran, dieses grundlegende Problem zu lösen. In diesem Artikel bieten wir eine neuartige Lösung, indem wir effektivere Bearbeitungsanweisungen für gegebene Bildpaare konstruieren. Dies umfasst die Korrektur der Bearbeitungsanweisungen, um sie besser mit den Original-Bearbeitungs-Bildpaaren in Einklang zu bringen, sowie die Verwendung kontrastiver Bearbeitungsanweisungen, um deren Wirksamkeit weiter zu steigern. Insbesondere stellen wir fest, dass Bearbeitungsmodelle in verschiedenen Inferenzschritten spezifische Generierungsattribute aufweisen, die unabhängig vom Text sind. Basierend auf diesen vorherigen Attributen definieren wir eine einheitliche Anleitung für VLMs, um Bearbeitungsanweisungen zu korrigieren. Es gibt jedoch einige anspruchsvolle Bearbeitungsszenarien, die nicht allein mit korrigierten Anweisungen gelöst werden können. Zu diesem Zweck konstruieren wir weiterhin kontrastive Überwachungssignale mit positiven und negativen Anweisungen und führen sie mithilfe von Triplet-Loss in das Modelltraining ein, wodurch die Wirksamkeit der Überwachung weiter gefördert wird. Unsere Methode erfordert weder die VLM-Module noch die Vorabtrainingsaufgaben, die in früheren Arbeiten verwendet wurden, und bietet einen direkteren und effizienteren Weg, um bessere Überwachungssignale bereitzustellen. Sie stellt somit eine neuartige, einfache und effektive Lösung für anweisungsbasierte Bildbearbeitung dar. Ergebnisse auf mehreren Benchmarks zeigen, dass unsere Methode bestehende Ansätze deutlich übertrifft. Im Vergleich zum bisherigen SOTA SmartEdit erzielen wir eine Verbesserung von 9,19 % auf dem Real-Edit-Benchmark bei 30-mal weniger Trainingsdaten und einer 13-mal kleineren Modellgröße.

English

Due to the challenges of manually collecting accurate editing data, existing datasets are typically constructed using various automated methods, leading to noisy supervision signals caused by the mismatch between editing instructions and original-edited image pairs. Recent efforts attempt to improve editing models through generating higher-quality edited images, pre-training on recognition tasks, or introducing vision-language models (VLMs) but fail to resolve this fundamental issue. In this paper, we offer a novel solution by constructing more effective editing instructions for given image pairs. This includes rectifying the editing instructions to better align with the original-edited image pairs and using contrastive editing instructions to further enhance their effectiveness. Specifically, we find that editing models exhibit specific generation attributes at different inference steps, independent of the text. Based on these prior attributes, we define a unified guide for VLMs to rectify editing instructions. However, there are some challenging editing scenarios that cannot be resolved solely with rectified instructions. To this end, we further construct contrastive supervision signals with positive and negative instructions and introduce them into the model training using triplet loss, thereby further facilitating supervision effectiveness. Our method does not require the VLM modules or pre-training tasks used in previous work, offering a more direct and efficient way to provide better supervision signals, and providing a novel, simple, and effective solution for instruction-based image editing. Results on multiple benchmarks demonstrate that our method significantly outperforms existing approaches. Compared with previous SOTA SmartEdit, we achieve 9.19% improvements on the Real-Edit benchmark with 30x less training data and 13x smaller model size.

SuperEdit: Verbesserung und Vereinfachung der Überwachung für anweisungsbasierte Bildbearbeitung

SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing

papers.abstract

Support