RelationAdapter : Apprentissage et transfert de relations visuelles avec des Transformers de diffusion

papers.abstract

Inspiré par le mécanisme d'apprentissage en contexte des grands modèles de langage (LLMs), un nouveau paradigme d'édition d'images généralisable basée sur des prompts visuels est en train d'émerger. Les méthodes existantes à référence unique se concentrent généralement sur des ajustements de style ou d'apparence et peinent à réaliser des transformations non rigides. Pour surmonter ces limitations, nous proposons d'exploiter des paires d'images source-cible afin d'extraire et de transférer une intention d'édition consciente du contenu vers de nouvelles images requêtes. À cette fin, nous introduisons RelationAdapter, un module léger qui permet aux modèles basés sur les Transformers de Diffusion (DiT) de capturer et d'appliquer efficacement des transformations visuelles à partir d'exemples minimaux. Nous présentons également Relation252K, un ensemble de données complet comprenant 218 tâches d'édition variées, pour évaluer la généralisation et l'adaptabilité des modèles dans des scénarios pilotés par des prompts visuels. Les expériences sur Relation252K montrent que RelationAdapter améliore significativement la capacité du modèle à comprendre et à transférer l'intention d'édition, entraînant des gains notables en qualité de génération et en performance globale d'édition.

English

Inspired by the in-context learning mechanism of large language models (LLMs), a new paradigm of generalizable visual prompt-based image editing is emerging. Existing single-reference methods typically focus on style or appearance adjustments and struggle with non-rigid transformations. To address these limitations, we propose leveraging source-target image pairs to extract and transfer content-aware editing intent to novel query images. To this end, we introduce RelationAdapter, a lightweight module that enables Diffusion Transformer (DiT) based models to effectively capture and apply visual transformations from minimal examples. We also introduce Relation252K, a comprehensive dataset comprising 218 diverse editing tasks, to evaluate model generalization and adaptability in visual prompt-driven scenarios. Experiments on Relation252K show that RelationAdapter significantly improves the model's ability to understand and transfer editing intent, leading to notable gains in generation quality and overall editing performance.

RelationAdapter : Apprentissage et transfert de relations visuelles avec des Transformers de diffusion

RelationAdapter: Learning and Transferring Visual Relation with Diffusion Transformers

papers.abstract

Support