Delta-Adapter: Skalierbare exemplarbasierte Bildbearbeitung mit Einzelpaar-Überwachung

Zusammenfassung

Exemplarbasierte Bildbearbeitung wendet eine Transformation, die durch ein Quell-Ziel-Bildpaar definiert ist, auf ein neues Abfragebild an. Bestehende Methoden basieren auf einem Paar-von-Paaren-Supervisionsparadigma, bei dem zwei Bildpaare mit derselben Bearbeitungssemantik erforderlich sind, um die Zieltransformation zu lernen. Diese Einschränkung erschwert die kuratierte Erstellung von Trainingsdaten in großem Maßstab und schränkt die Generalisierung über verschiedene Bearbeitungstypen hinweg ein. Wir schlagen Delta-Adapter vor, eine Methode, die unter Einzelpaar-Supervision übertragbare Bearbeitungssemantiken lernt, ohne textuelle Anleitung zu benötigen. Anstatt das Beispielpaar direkt dem Modell auszusetzen, nutzen wir einen vortrainierten visuellen Encoder, um ein semantisches Delta zu extrahieren, das die visuelle Transformation zwischen den beiden Bildern codiert. Dieses semantische Delta wird über einen Perceiver-basierten Adapter in ein vortrainiertes Bildbearbeitungsmodell eingespeist. Da das Zielbild dem Modell nie direkt sichtbar ist, kann es als Vorhersageziel dienen, was Einzelpaar-Supervision ohne zusätzliche Beispielpaare ermöglicht. Diese Formulierung erlaubt es uns, vorhandene groß angelegte Bearbeitungsdatensätze für das Training zu nutzen. Um die getreue Transformationsübertragung weiter zu fördern, führen wir einen semantischen Delta-Konsistenzverlust ein, der die semantische Änderung des generierten Outputs mit dem aus dem Beispielpaar extrahierten Ground-Truth-Semantik-Delta abgleicht. Umfangreiche Experimente zeigen, dass Delta-Adapter sowohl die Bearbeitungsgenauigkeit als auch die Inhaltskonsistenz gegenüber vier starken Baselines bei gesehenen Bearbeitungsaufgaben konsistent verbessert und gleichzeitig effektiver auf ungesehene Bearbeitungsaufgaben generalisiert. Der Code wird unter https://delta-adapter.github.io verfügbar sein.

English

Exemplar-based image editing applies a transformation defined by a source-target image pair to a new query image. Existing methods rely on a pair-of-pairs supervision paradigm, requiring two image pairs sharing the same edit semantics to learn the target transformation. This constraint makes training data difficult to curate at scale and limits generalization across diverse edit types. We propose Delta-Adapter, a method that learns transferable editing semantics under single-pair supervision, requiring no textual guidance. Rather than directly exposing the exemplar pair to the model, we leverage a pre-trained vision encoder to extract a semantic delta that encodes the visual transformation between the two images. This semantic delta is injected into a pre-trained image editing model via a Perceiver-based adapter. Since the target image is never directly visible to the model, it can serve as the prediction target, enabling single-pair supervision without requiring additional exemplar pairs. This formulation allows us to leverage existing large-scale editing datasets for training. To further promote faithful transformation transfer, we introduce a semantic delta consistency loss that aligns the semantic change of the generated output with the ground-truth semantic delta extracted from the exemplar pair. Extensive experiments demonstrate that Delta-Adapter consistently improves both editing accuracy and content consistency over four strong baselines on seen editing tasks, while also generalizing more effectively to unseen editing tasks. Code will be available at https://delta-adapter.github.io.