Delta-Adapter: Масштабируемое редактирование изображений на основе примеров с обучением на одной паре

Аннотация

Редактирование изображений на основе примеров применяет преобразование, заданное парой исходного и целевого изображений, к новому запросному изображению. Существующие методы опираются на парадигму обучения с использованием пар пар, требующую два набора изображений с одинаковой семантикой редактирования для изучения целевого преобразования. Это ограничение затрудняет масштабное формирование обучающих данных и ограничивает обобщение на различные типы редактирования. Мы предлагаем Delta-Adapter — метод, который изучает переносимую семантику редактирования при обучении на одной паре, не требуя текстовых подсказок. Вместо прямого предоставления модели пары примеров мы используем предварительно обученный кодировщик изображений для извлечения семантической дельты, которая кодирует визуальное преобразование между двумя изображениями. Эта семантическая дельта вводится в предварительно обученную модель редактирования изображений через адаптер на основе Perceiver. Поскольку целевое изображение никогда не видно модели напрямую, оно может служить целью предсказания, что позволяет обучать на одной паре без необходимости дополнительных пар примеров. Такая формулировка позволяет нам использовать существующие крупномасштабные наборы данных для обучения. Для дальнейшего обеспечения точного переноса преобразования мы вводим потерю согласованности семантической дельты, которая согласует семантическое изменение сгенерированного вывода с истинной семантической дельтой, извлеченной из пары примеров. Обширные эксперименты показывают, что Delta-Adapter последовательно улучшает как точность редактирования, так и согласованность содержимого по сравнению с четырьмя сильными базовыми методами на известных задачах редактирования, а также более эффективно обобщается на неизвестные задачи редактирования. Код будет доступен по адресу https://delta-adapter.github.io.

English

Exemplar-based image editing applies a transformation defined by a source-target image pair to a new query image. Existing methods rely on a pair-of-pairs supervision paradigm, requiring two image pairs sharing the same edit semantics to learn the target transformation. This constraint makes training data difficult to curate at scale and limits generalization across diverse edit types. We propose Delta-Adapter, a method that learns transferable editing semantics under single-pair supervision, requiring no textual guidance. Rather than directly exposing the exemplar pair to the model, we leverage a pre-trained vision encoder to extract a semantic delta that encodes the visual transformation between the two images. This semantic delta is injected into a pre-trained image editing model via a Perceiver-based adapter. Since the target image is never directly visible to the model, it can serve as the prediction target, enabling single-pair supervision without requiring additional exemplar pairs. This formulation allows us to leverage existing large-scale editing datasets for training. To further promote faithful transformation transfer, we introduce a semantic delta consistency loss that aligns the semantic change of the generated output with the ground-truth semantic delta extracted from the exemplar pair. Extensive experiments demonstrate that Delta-Adapter consistently improves both editing accuracy and content consistency over four strong baselines on seen editing tasks, while also generalizing more effectively to unseen editing tasks. Code will be available at https://delta-adapter.github.io.

Delta-Adapter: Масштабируемое редактирование изображений на основе примеров с обучением на одной паре

Delta-Adapter: Scalable Exemplar-Based Image Editing with Single-Pair Supervision

Аннотация

Support