ChatPaper.aiChatPaper

RelationAdapter: Обучение и перенос визуальных отношений с помощью диффузионных трансформеров

RelationAdapter: Learning and Transferring Visual Relation with Diffusion Transformers

June 3, 2025
Авторы: Yan Gong, Yiren Song, Yicheng Li, Chenglin Li, Yin Zhang
cs.AI

Аннотация

Вдохновленные механизмом обучения в контексте больших языковых моделей (LLM), появляется новый подход к редактированию изображений на основе обобщаемых визуальных подсказок. Существующие методы, использующие одиночные эталонные изображения, обычно сосредоточены на корректировке стиля или внешнего вида и испытывают трудности с нежесткими преобразованиями. Чтобы устранить эти ограничения, мы предлагаем использовать пары исходных и целевых изображений для извлечения и передачи контентно-зависимых намерений редактирования на новые запрашиваемые изображения. Для этого мы представляем RelationAdapter — легковесный модуль, который позволяет моделям на основе диффузионных трансформеров (DiT) эффективно захватывать и применять визуальные преобразования на основе минимальных примеров. Мы также представляем Relation252K — обширный набор данных, включающий 218 разнообразных задач редактирования, для оценки обобщаемости и адаптивности моделей в сценариях, управляемых визуальными подсказками. Эксперименты на Relation252K показывают, что RelationAdapter значительно улучшает способность модели понимать и передавать намерения редактирования, что приводит к заметному повышению качества генерации и общей производительности редактирования.
English
Inspired by the in-context learning mechanism of large language models (LLMs), a new paradigm of generalizable visual prompt-based image editing is emerging. Existing single-reference methods typically focus on style or appearance adjustments and struggle with non-rigid transformations. To address these limitations, we propose leveraging source-target image pairs to extract and transfer content-aware editing intent to novel query images. To this end, we introduce RelationAdapter, a lightweight module that enables Diffusion Transformer (DiT) based models to effectively capture and apply visual transformations from minimal examples. We also introduce Relation252K, a comprehensive dataset comprising 218 diverse editing tasks, to evaluate model generalization and adaptability in visual prompt-driven scenarios. Experiments on Relation252K show that RelationAdapter significantly improves the model's ability to understand and transfer editing intent, leading to notable gains in generation quality and overall editing performance.
PDF152June 4, 2025