ViCo: Detailerhaltende visuelle Bedingung für personalisierte Text-zu-Bild-Generierung
ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image Generation
June 1, 2023
Autoren: Shaozhe Hao, Kai Han, Shihao Zhao, Kwan-Yee K. Wong
cs.AI
Zusammenfassung
Die personalisierte Text-zu-Bild-Generierung mithilfe von Diffusionsmodellen wurde kürzlich vorgeschlagen und hat viel Aufmerksamkeit erregt. Gegeben eine Handvoll Bilder, die ein neuartiges Konzept enthalten (z. B. ein einzigartiges Spielzeug), zielen wir darauf ab, das generative Modell so anzupassen, dass es feine visuelle Details des neuartigen Konzepts erfasst und fotorealistische Bilder gemäß einer Textbedingung generiert. Wir präsentieren eine Plug-in-Methode, genannt ViCo, für schnelle und ressourcenschonende personalisierte Generierung. Insbesondere schlagen wir ein Bild-Attentionsmodul vor, um den Diffusionsprozess auf die patch-basierten visuellen Semantiken zu konditionieren. Wir führen eine auf Aufmerksamkeit basierende Objektmaske ein, die nahezu ohne zusätzlichen Aufwand aus dem Aufmerksamkeitsmodul gewonnen wird. Zudem entwerfen wir eine einfache Regularisierung, die auf den intrinsischen Eigenschaften von Text-Bild-Attentionskarten basiert, um die häufige Überanpassungsdegradation zu mildern. Im Gegensatz zu vielen bestehenden Modellen passt unsere Methode keine Parameter des ursprünglichen Diffusionsmodells an. Dies ermöglicht eine flexiblere und übertragbarere Modellbereitstellung. Mit nur geringem Parametertraining (~6 % des Diffusion U-Nets) erreicht unsere Methode vergleichbare oder sogar bessere Leistungen als alle state-of-the-art Modelle sowohl qualitativ als auch quantitativ.
English
Personalized text-to-image generation using diffusion models has recently
been proposed and attracted lots of attention. Given a handful of images
containing a novel concept (e.g., a unique toy), we aim to tune the generative
model to capture fine visual details of the novel concept and generate
photorealistic images following a text condition. We present a plug-in method,
named ViCo, for fast and lightweight personalized generation. Specifically, we
propose an image attention module to condition the diffusion process on the
patch-wise visual semantics. We introduce an attention-based object mask that
comes almost at no cost from the attention module. In addition, we design a
simple regularization based on the intrinsic properties of text-image attention
maps to alleviate the common overfitting degradation. Unlike many existing
models, our method does not finetune any parameters of the original diffusion
model. This allows more flexible and transferable model deployment. With only
light parameter training (~6% of the diffusion U-Net), our method achieves
comparable or even better performance than all state-of-the-art models both
qualitatively and quantitatively.