Delta-Adapter : édition d'images par exemples évolutive avec supervision par paire unique

Résumé

L'édition d'images basée sur des exemples applique une transformation définie par une paire d'images source-cible à une nouvelle image de requête. Les méthodes existantes reposent sur un paradigme de supervision par paires de paires, nécessitant deux paires d'images partageant les mêmes sémantiques d'édition pour apprendre la transformation cible. Cette contrainte rend la collecte de données d'apprentissage difficile à grande échelle et limite la généralisation à divers types d'édition. Nous proposons Delta-Adapter, une méthode qui apprend des sémantiques d'édition transférables sous une supervision par paire unique, sans nécessiter de guidance textuelle. Plutôt que d'exposer directement la paire d'exemples au modèle, nous exploitons un encodeur visuel pré-entraîné pour extraire un delta sémantique qui encode la transformation visuelle entre les deux images. Ce delta sémantique est injecté dans un modèle d'édition d'images pré-entraîné via un adaptateur basé sur Perceiver. Étant donné que l'image cible n'est jamais directement visible par le modèle, elle peut servir de cible de prédiction, permettant une supervision par paire unique sans nécessiter de paires d'exemples supplémentaires. Cette formulation nous permet d'exploiter les ensembles de données d'édition à grande échelle existants pour l'apprentissage. Pour favoriser un transfert de transformation plus fidèle, nous introduisons une perte de cohérence du delta sémantique qui aligne le changement sémantique de la sortie générée avec le delta sémantique de référence extrait de la paire d'exemples. Des expériences approfondies montrent que Delta-Adapter améliore systématiquement à la fois la précision d'édition et la cohérence du contenu par rapport à quatre bases solides sur des tâches d'édition connues, tout en généralisant plus efficacement à des tâches d'édition inédites. Le code sera disponible à l'adresse https://delta-adapter.github.io.

English

Exemplar-based image editing applies a transformation defined by a source-target image pair to a new query image. Existing methods rely on a pair-of-pairs supervision paradigm, requiring two image pairs sharing the same edit semantics to learn the target transformation. This constraint makes training data difficult to curate at scale and limits generalization across diverse edit types. We propose Delta-Adapter, a method that learns transferable editing semantics under single-pair supervision, requiring no textual guidance. Rather than directly exposing the exemplar pair to the model, we leverage a pre-trained vision encoder to extract a semantic delta that encodes the visual transformation between the two images. This semantic delta is injected into a pre-trained image editing model via a Perceiver-based adapter. Since the target image is never directly visible to the model, it can serve as the prediction target, enabling single-pair supervision without requiring additional exemplar pairs. This formulation allows us to leverage existing large-scale editing datasets for training. To further promote faithful transformation transfer, we introduce a semantic delta consistency loss that aligns the semantic change of the generated output with the ground-truth semantic delta extracted from the exemplar pair. Extensive experiments demonstrate that Delta-Adapter consistently improves both editing accuracy and content consistency over four strong baselines on seen editing tasks, while also generalizing more effectively to unseen editing tasks. Code will be available at https://delta-adapter.github.io.

Delta-Adapter : édition d'images par exemples évolutive avec supervision par paire unique

Delta-Adapter: Scalable Exemplar-Based Image Editing with Single-Pair Supervision

Résumé

Support