RelationAdapter : Apprentissage et transfert de relations visuelles avec des Transformers de diffusion
RelationAdapter: Learning and Transferring Visual Relation with Diffusion Transformers
June 3, 2025
Auteurs: Yan Gong, Yiren Song, Yicheng Li, Chenglin Li, Yin Zhang
cs.AI
Résumé
Inspiré par le mécanisme d'apprentissage en contexte des grands modèles de langage (LLMs), un nouveau paradigme d'édition d'images généralisable basée sur des prompts visuels est en train d'émerger. Les méthodes existantes à référence unique se concentrent généralement sur des ajustements de style ou d'apparence et peinent à réaliser des transformations non rigides. Pour surmonter ces limitations, nous proposons d'exploiter des paires d'images source-cible afin d'extraire et de transférer une intention d'édition consciente du contenu vers de nouvelles images requêtes. À cette fin, nous introduisons RelationAdapter, un module léger qui permet aux modèles basés sur les Transformers de Diffusion (DiT) de capturer et d'appliquer efficacement des transformations visuelles à partir d'exemples minimaux. Nous présentons également Relation252K, un ensemble de données complet comprenant 218 tâches d'édition variées, pour évaluer la généralisation et l'adaptabilité des modèles dans des scénarios pilotés par des prompts visuels. Les expériences sur Relation252K montrent que RelationAdapter améliore significativement la capacité du modèle à comprendre et à transférer l'intention d'édition, entraînant des gains notables en qualité de génération et en performance globale d'édition.
English
Inspired by the in-context learning mechanism of large language models
(LLMs), a new paradigm of generalizable visual prompt-based image editing is
emerging. Existing single-reference methods typically focus on style or
appearance adjustments and struggle with non-rigid transformations. To address
these limitations, we propose leveraging source-target image pairs to extract
and transfer content-aware editing intent to novel query images. To this end,
we introduce RelationAdapter, a lightweight module that enables Diffusion
Transformer (DiT) based models to effectively capture and apply visual
transformations from minimal examples. We also introduce Relation252K, a
comprehensive dataset comprising 218 diverse editing tasks, to evaluate model
generalization and adaptability in visual prompt-driven scenarios. Experiments
on Relation252K show that RelationAdapter significantly improves the model's
ability to understand and transfer editing intent, leading to notable gains in
generation quality and overall editing performance.