RelationAdapter: Обучение и перенос визуальных отношений с помощью диффузионных трансформеров
RelationAdapter: Learning and Transferring Visual Relation with Diffusion Transformers
June 3, 2025
Авторы: Yan Gong, Yiren Song, Yicheng Li, Chenglin Li, Yin Zhang
cs.AI
Аннотация
Вдохновленные механизмом обучения в контексте больших языковых моделей (LLM), появляется новый подход к редактированию изображений на основе обобщаемых визуальных подсказок. Существующие методы, использующие одиночные эталонные изображения, обычно сосредоточены на корректировке стиля или внешнего вида и испытывают трудности с нежесткими преобразованиями. Чтобы устранить эти ограничения, мы предлагаем использовать пары исходных и целевых изображений для извлечения и передачи контентно-зависимых намерений редактирования на новые запрашиваемые изображения. Для этого мы представляем RelationAdapter — легковесный модуль, который позволяет моделям на основе диффузионных трансформеров (DiT) эффективно захватывать и применять визуальные преобразования на основе минимальных примеров. Мы также представляем Relation252K — обширный набор данных, включающий 218 разнообразных задач редактирования, для оценки обобщаемости и адаптивности моделей в сценариях, управляемых визуальными подсказками. Эксперименты на Relation252K показывают, что RelationAdapter значительно улучшает способность модели понимать и передавать намерения редактирования, что приводит к заметному повышению качества генерации и общей производительности редактирования.
English
Inspired by the in-context learning mechanism of large language models
(LLMs), a new paradigm of generalizable visual prompt-based image editing is
emerging. Existing single-reference methods typically focus on style or
appearance adjustments and struggle with non-rigid transformations. To address
these limitations, we propose leveraging source-target image pairs to extract
and transfer content-aware editing intent to novel query images. To this end,
we introduce RelationAdapter, a lightweight module that enables Diffusion
Transformer (DiT) based models to effectively capture and apply visual
transformations from minimal examples. We also introduce Relation252K, a
comprehensive dataset comprising 218 diverse editing tasks, to evaluate model
generalization and adaptability in visual prompt-driven scenarios. Experiments
on Relation252K show that RelationAdapter significantly improves the model's
ability to understand and transfer editing intent, leading to notable gains in
generation quality and overall editing performance.