Delta-Adapter: Schaalbare voorbeeldgebaseerde beeldbewerking met supervisie van één paar

Samenvatting

Voorbeeldgebaseerde beeldbewerking past een transformatie toe die wordt gedefinieerd door een bron-doelbeeldpaar op een nieuw querybeeld. Bestaande methoden vertrouwen op een supervisieparadigma met parenparen, waarbij twee beeldparen nodig zijn die dezelfde bewerkingssemantiek delen om de doeltransformatie te leren. Deze beperking maakt het moeilijk om trainingsdata op schaal te cureren en beperkt de generalisatie over diverse bewerkingstypen. Wij stellen Delta-Adapter voor, een methode die overdraagbare bewerkingssemantiek leert onder supervisie met één paar, zonder dat er tekstuele begeleiding nodig is. In plaats van het voorbeeldpaar direct aan het model bloot te stellen, gebruiken we een voorgetrainde visie-encoder om een semantische delta te extraheren die de visuele transformatie tussen de twee afbeeldingen codeert. Deze semantische delta wordt via een op Perceiver gebaseerde adapter geïnjecteerd in een voorgetraind beeldbewerkingsmodel. Omdat de doelafbeelding nooit direct zichtbaar is voor het model, kan deze dienen als het voorspellingsdoel, waardoor supervisie met één paar mogelijk is zonder dat er extra voorbeeldparen nodig zijn. Deze formulering stelt ons in staat om bestaande grootschalige bewerkingsdatasets te gebruiken voor training. Om een getrouwe transformatieoverdracht verder te bevorderen, introduceren we een consistentieverlies van de semantische delta dat de semantische verandering van de gegenereerde uitvoer afstemt op de grondwaarheid semantische delta die uit het voorbeeldpaar is geëxtraheerd. Uitgebreide experimenten tonen aan dat Delta-Adapter consistent zowel de bewerkingsnauwkeurigheid als de inhoudconsistentie verbetert ten opzichte van vier sterke baselines op geziene bewerkingstaken, terwijl het ook effectiever generaliseert naar ongeziene bewerkingstaken. Code zal beschikbaar zijn op https://delta-adapter.github.io.

English

Exemplar-based image editing applies a transformation defined by a source-target image pair to a new query image. Existing methods rely on a pair-of-pairs supervision paradigm, requiring two image pairs sharing the same edit semantics to learn the target transformation. This constraint makes training data difficult to curate at scale and limits generalization across diverse edit types. We propose Delta-Adapter, a method that learns transferable editing semantics under single-pair supervision, requiring no textual guidance. Rather than directly exposing the exemplar pair to the model, we leverage a pre-trained vision encoder to extract a semantic delta that encodes the visual transformation between the two images. This semantic delta is injected into a pre-trained image editing model via a Perceiver-based adapter. Since the target image is never directly visible to the model, it can serve as the prediction target, enabling single-pair supervision without requiring additional exemplar pairs. This formulation allows us to leverage existing large-scale editing datasets for training. To further promote faithful transformation transfer, we introduce a semantic delta consistency loss that aligns the semantic change of the generated output with the ground-truth semantic delta extracted from the exemplar pair. Extensive experiments demonstrate that Delta-Adapter consistently improves both editing accuracy and content consistency over four strong baselines on seen editing tasks, while also generalizing more effectively to unseen editing tasks. Code will be available at https://delta-adapter.github.io.

Delta-Adapter: Schaalbare voorbeeldgebaseerde beeldbewerking met supervisie van één paar

Delta-Adapter: Scalable Exemplar-Based Image Editing with Single-Pair Supervision

Samenvatting

Support