ChatPaper.aiChatPaper

RelationAdapter: Lernen und Übertragen visueller Beziehungen mit Diffusions-Transformern

RelationAdapter: Learning and Transferring Visual Relation with Diffusion Transformers

June 3, 2025
Autoren: Yan Gong, Yiren Song, Yicheng Li, Chenglin Li, Yin Zhang
cs.AI

Zusammenfassung

Inspiriert vom In-Context-Learning-Mechanismus großer Sprachmodelle (LLMs) entsteht ein neues Paradigma für generalisierbare, visuelle prompt-basierte Bildbearbeitung. Bestehende Single-Reference-Methoden konzentrieren sich typischerweise auf Stil- oder Erscheinungsanpassungen und haben Schwierigkeiten mit nicht-starren Transformationen. Um diese Einschränkungen zu überwinden, schlagen wir vor, Quell-Ziel-Bildpaare zu nutzen, um inhaltsbewusste Bearbeitungsabsichten zu extrahieren und auf neue Anfragebilder zu übertragen. Zu diesem Zweck führen wir RelationAdapter ein, ein leichtgewichtiges Modul, das Diffusion-Transformer (DiT)-basierte Modelle befähigt, visuelle Transformationen aus minimalen Beispielen effektiv zu erfassen und anzuwenden. Zudem stellen wir Relation252K vor, einen umfassenden Datensatz, der 218 verschiedene Bearbeitungsaufgaben umfasst, um die Modellgeneralisierung und Anpassungsfähigkeit in visuellen prompt-gesteuerten Szenarien zu bewerten. Experimente auf Relation252K zeigen, dass RelationAdapter die Fähigkeit des Modells, Bearbeitungsabsichten zu verstehen und zu übertragen, signifikant verbessert, was zu bemerkenswerten Fortschritten in der Generierungsqualität und der Gesamtleistung der Bearbeitung führt.
English
Inspired by the in-context learning mechanism of large language models (LLMs), a new paradigm of generalizable visual prompt-based image editing is emerging. Existing single-reference methods typically focus on style or appearance adjustments and struggle with non-rigid transformations. To address these limitations, we propose leveraging source-target image pairs to extract and transfer content-aware editing intent to novel query images. To this end, we introduce RelationAdapter, a lightweight module that enables Diffusion Transformer (DiT) based models to effectively capture and apply visual transformations from minimal examples. We also introduce Relation252K, a comprehensive dataset comprising 218 diverse editing tasks, to evaluate model generalization and adaptability in visual prompt-driven scenarios. Experiments on Relation252K show that RelationAdapter significantly improves the model's ability to understand and transfer editing intent, leading to notable gains in generation quality and overall editing performance.
PDF152June 4, 2025