RelationAdapter: Apprendimento e Trasferimento di Relazioni Visive con Diffusion Transformers
RelationAdapter: Learning and Transferring Visual Relation with Diffusion Transformers
June 3, 2025
Autori: Yan Gong, Yiren Song, Yicheng Li, Chenglin Li, Yin Zhang
cs.AI
Abstract
Ispirati dal meccanismo di apprendimento in-context dei grandi modelli linguistici (LLMs), sta emergendo un nuovo paradigma di editing di immagini basato su prompt visivi generalizzabili. I metodi esistenti che utilizzano un singolo riferimento si concentrano tipicamente su aggiustamenti di stile o aspetto e faticano a gestire trasformazioni non rigide. Per affrontare queste limitazioni, proponiamo di sfruttare coppie di immagini sorgente-destinazione per estrarre e trasferire l'intento di editing consapevole del contenuto a nuove immagini di query. A tal fine, introduciamo RelationAdapter, un modulo leggero che consente ai modelli basati su Diffusion Transformer (DiT) di catturare e applicare efficacemente trasformazioni visive a partire da esempi minimi. Introduciamo anche Relation252K, un dataset completo che comprende 218 task di editing diversi, per valutare la generalizzazione e l'adattabilità del modello in scenari guidati da prompt visivi. Gli esperimenti su Relation252K dimostrano che RelationAdapter migliora significativamente la capacità del modello di comprendere e trasferire l'intento di editing, portando a notevoli miglioramenti nella qualità della generazione e nelle prestazioni complessive dell'editing.
English
Inspired by the in-context learning mechanism of large language models
(LLMs), a new paradigm of generalizable visual prompt-based image editing is
emerging. Existing single-reference methods typically focus on style or
appearance adjustments and struggle with non-rigid transformations. To address
these limitations, we propose leveraging source-target image pairs to extract
and transfer content-aware editing intent to novel query images. To this end,
we introduce RelationAdapter, a lightweight module that enables Diffusion
Transformer (DiT) based models to effectively capture and apply visual
transformations from minimal examples. We also introduce Relation252K, a
comprehensive dataset comprising 218 diverse editing tasks, to evaluate model
generalization and adaptability in visual prompt-driven scenarios. Experiments
on Relation252K show that RelationAdapter significantly improves the model's
ability to understand and transfer editing intent, leading to notable gains in
generation quality and overall editing performance.