Delta-Adapter: Edición de imágenes escalable basada en ejemplares con supervisión de un solo par

Resumen

La edición de imágenes basada en ejemplos aplica una transformación definida por un par de imágenes fuente-destino a una nueva imagen de consulta. Los métodos existentes dependen de un paradigma de supervisión basado en pares de pares, que requiere dos pares de imágenes que compartan la misma semántica de edición para aprender la transformación objetivo. Esta restricción dificulta la recopilación de datos de entrenamiento a gran escala y limita la generalización a diversos tipos de edición. Proponemos Delta-Adapter, un método que aprende semánticas de edición transferibles bajo supervisión de un solo par, sin necesidad de guía textual. En lugar de exponer directamente el par de ejemplo al modelo, aprovechamos un codificador visual preentrenado para extraer un delta semántico que codifica la transformación visual entre las dos imágenes. Este delta semántico se inyecta en un modelo de edición de imágenes preentrenado mediante un adaptador basado en Perceiver. Dado que la imagen destino nunca es visible directamente para el modelo, puede servir como objetivo de predicción, lo que permite la supervisión de un solo par sin requerir pares de ejemplo adicionales. Esta formulación nos permite aprovechar conjuntos de datos de edición a gran escala existentes para el entrenamiento. Para promover aún más una transferencia fiel de la transformación, introducimos una pérdida de consistencia del delta semántico que alinea el cambio semántico de la salida generada con el delta semántico de referencia extraído del par de ejemplo. Experimentos exhaustivos demuestran que Delta-Adapter mejora de manera consistente tanto la precisión de edición como la consistencia del contenido en comparación con cuatro líneas base sólidas en tareas de edición ya conocidas, al mismo tiempo que generaliza de manera más efectiva a tareas de edición no vistas. El código estará disponible en https://delta-adapter.github.io.

English

Exemplar-based image editing applies a transformation defined by a source-target image pair to a new query image. Existing methods rely on a pair-of-pairs supervision paradigm, requiring two image pairs sharing the same edit semantics to learn the target transformation. This constraint makes training data difficult to curate at scale and limits generalization across diverse edit types. We propose Delta-Adapter, a method that learns transferable editing semantics under single-pair supervision, requiring no textual guidance. Rather than directly exposing the exemplar pair to the model, we leverage a pre-trained vision encoder to extract a semantic delta that encodes the visual transformation between the two images. This semantic delta is injected into a pre-trained image editing model via a Perceiver-based adapter. Since the target image is never directly visible to the model, it can serve as the prediction target, enabling single-pair supervision without requiring additional exemplar pairs. This formulation allows us to leverage existing large-scale editing datasets for training. To further promote faithful transformation transfer, we introduce a semantic delta consistency loss that aligns the semantic change of the generated output with the ground-truth semantic delta extracted from the exemplar pair. Extensive experiments demonstrate that Delta-Adapter consistently improves both editing accuracy and content consistency over four strong baselines on seen editing tasks, while also generalizing more effectively to unseen editing tasks. Code will be available at https://delta-adapter.github.io.

Delta-Adapter: Edición de imágenes escalable basada en ejemplares con supervisión de un solo par

Delta-Adapter: Scalable Exemplar-Based Image Editing with Single-Pair Supervision

Resumen

Support