RelationAdapter: Lernen und Übertragen visueller Beziehungen mit Diffusions-Transformern
RelationAdapter: Learning and Transferring Visual Relation with Diffusion Transformers
June 3, 2025
Autoren: Yan Gong, Yiren Song, Yicheng Li, Chenglin Li, Yin Zhang
cs.AI
Zusammenfassung
Inspiriert vom In-Context-Learning-Mechanismus großer Sprachmodelle (LLMs) entsteht ein neues Paradigma für generalisierbare, visuelle prompt-basierte Bildbearbeitung. Bestehende Single-Reference-Methoden konzentrieren sich typischerweise auf Stil- oder Erscheinungsanpassungen und haben Schwierigkeiten mit nicht-starren Transformationen. Um diese Einschränkungen zu überwinden, schlagen wir vor, Quell-Ziel-Bildpaare zu nutzen, um inhaltsbewusste Bearbeitungsabsichten zu extrahieren und auf neue Anfragebilder zu übertragen. Zu diesem Zweck führen wir RelationAdapter ein, ein leichtgewichtiges Modul, das Diffusion-Transformer (DiT)-basierte Modelle befähigt, visuelle Transformationen aus minimalen Beispielen effektiv zu erfassen und anzuwenden. Zudem stellen wir Relation252K vor, einen umfassenden Datensatz, der 218 verschiedene Bearbeitungsaufgaben umfasst, um die Modellgeneralisierung und Anpassungsfähigkeit in visuellen prompt-gesteuerten Szenarien zu bewerten. Experimente auf Relation252K zeigen, dass RelationAdapter die Fähigkeit des Modells, Bearbeitungsabsichten zu verstehen und zu übertragen, signifikant verbessert, was zu bemerkenswerten Fortschritten in der Generierungsqualität und der Gesamtleistung der Bearbeitung führt.
English
Inspired by the in-context learning mechanism of large language models
(LLMs), a new paradigm of generalizable visual prompt-based image editing is
emerging. Existing single-reference methods typically focus on style or
appearance adjustments and struggle with non-rigid transformations. To address
these limitations, we propose leveraging source-target image pairs to extract
and transfer content-aware editing intent to novel query images. To this end,
we introduce RelationAdapter, a lightweight module that enables Diffusion
Transformer (DiT) based models to effectively capture and apply visual
transformations from minimal examples. We also introduce Relation252K, a
comprehensive dataset comprising 218 diverse editing tasks, to evaluate model
generalization and adaptability in visual prompt-driven scenarios. Experiments
on Relation252K show that RelationAdapter significantly improves the model's
ability to understand and transfer editing intent, leading to notable gains in
generation quality and overall editing performance.