RelationAdapter: Het leren en overdragen van visuele relaties met Diffusion Transformers
RelationAdapter: Learning and Transferring Visual Relation with Diffusion Transformers
June 3, 2025
Auteurs: Yan Gong, Yiren Song, Yicheng Li, Chenglin Li, Yin Zhang
cs.AI
Samenvatting
Geïnspireerd door het in-context leerproces van grote taalmodellen (LLM's), ontstaat er een nieuw paradigma voor generaliseerbare beeldbewerking op basis van visuele prompts. Bestaande methoden met één referentie richten zich doorgaans op stijl- of uiterlijke aanpassingen en hebben moeite met niet-rigide transformaties. Om deze beperkingen aan te pakken, stellen we voor om bron-doel beeldparen te gebruiken om inhoudsbewuste bewerkingsintentie te extraheren en over te dragen naar nieuwe querybeelden. Hiertoe introduceren we RelationAdapter, een lichtgewicht module die Diffusion Transformer (DiT)-gebaseerde modellen in staat stelt om visuele transformaties effectief vast te leggen en toe te passen op basis van minimale voorbeelden. We introduceren ook Relation252K, een uitgebreide dataset met 218 diverse bewerkingstaken, om de generalisatie en aanpassingsvermogen van modellen in visuele prompt-gestuurde scenario's te evalueren. Experimenten op Relation252K tonen aan dat RelationAdapter het vermogen van het model om bewerkingsintentie te begrijpen en over te dragen aanzienlijk verbetert, wat leidt tot opmerkelijke verbeteringen in de generatiekwaliteit en de algehele bewerkingsprestaties.
English
Inspired by the in-context learning mechanism of large language models
(LLMs), a new paradigm of generalizable visual prompt-based image editing is
emerging. Existing single-reference methods typically focus on style or
appearance adjustments and struggle with non-rigid transformations. To address
these limitations, we propose leveraging source-target image pairs to extract
and transfer content-aware editing intent to novel query images. To this end,
we introduce RelationAdapter, a lightweight module that enables Diffusion
Transformer (DiT) based models to effectively capture and apply visual
transformations from minimal examples. We also introduce Relation252K, a
comprehensive dataset comprising 218 diverse editing tasks, to evaluate model
generalization and adaptability in visual prompt-driven scenarios. Experiments
on Relation252K show that RelationAdapter significantly improves the model's
ability to understand and transfer editing intent, leading to notable gains in
generation quality and overall editing performance.