ChatPaper.aiChatPaper

Anpassen von Text-zu-Bild-Modellen mit einem einzigen Bildpaar

Customizing Text-to-Image Models with a Single Image Pair

May 2, 2024
Autoren: Maxwell Jones, Sheng-Yu Wang, Nupur Kumari, David Bau, Jun-Yan Zhu
cs.AI

Zusammenfassung

Kunstneuinterpretation ist die Praxis, eine Variation eines Referenzwerks zu erstellen, indem ein gepaartes Kunstwerk geschaffen wird, das einen eindeutigen künstlerischen Stil aufweist. Wir untersuchen, ob ein solches Bildpaar verwendet werden kann, um ein generatives Modell anzupassen, um den gezeigten stilistischen Unterschied einzufangen. Wir schlagen Pair Customization vor, eine neue Anpassungsmethode, die den stilistischen Unterschied aus einem einzigen Bildpaar lernt und dann den erworbenen Stil auf den Generierungsprozess anwendet. Im Gegensatz zu bestehenden Methoden, die lernen, ein einzelnes Konzept aus einer Sammlung von Bildern zu imitieren, erfasst unsere Methode den stilistischen Unterschied zwischen gepaarten Bildern. Dies ermöglicht es uns, eine stilistische Veränderung anzuwenden, ohne sich an den spezifischen Bildinhalten in den Beispielen anzupassen. Um diese neue Aufgabe anzugehen, verwenden wir eine gemeinsame Optimierungsmethode, die den Stil und den Inhalt explizit in separate LoRA-Gewichtsräume trennt. Wir optimieren diese Stil- und Inhalts-Gewichte, um die Stil- und Inhaltsbilder zu reproduzieren und ihre Orthogonalität zu fördern. Während der Inferenz passen wir den Diffusionsprozess über eine neue Stilführung basierend auf unseren gelernten Gewichten an. Sowohl qualitative als auch quantitative Experimente zeigen, dass unsere Methode effektiv lernen kann, den Stil zu erfassen, während sie sich an den Bildinhalt anpasst, was das Potenzial der Modellierung solcher stilistischer Unterschiede aus einem einzigen Bildpaar hervorhebt.
English
Art reinterpretation is the practice of creating a variation of a reference work, making a paired artwork that exhibits a distinct artistic style. We ask if such an image pair can be used to customize a generative model to capture the demonstrated stylistic difference. We propose Pair Customization, a new customization method that learns stylistic difference from a single image pair and then applies the acquired style to the generation process. Unlike existing methods that learn to mimic a single concept from a collection of images, our method captures the stylistic difference between paired images. This allows us to apply a stylistic change without overfitting to the specific image content in the examples. To address this new task, we employ a joint optimization method that explicitly separates the style and content into distinct LoRA weight spaces. We optimize these style and content weights to reproduce the style and content images while encouraging their orthogonality. During inference, we modify the diffusion process via a new style guidance based on our learned weights. Both qualitative and quantitative experiments show that our method can effectively learn style while avoiding overfitting to image content, highlighting the potential of modeling such stylistic differences from a single image pair.

Summary

AI-Generated Summary

PDF231December 15, 2024