ViCo: Detailerhaltende visuelle Bedingung für personalisierte Text-zu-Bild-Generierung

Zusammenfassung

Die personalisierte Text-zu-Bild-Generierung mithilfe von Diffusionsmodellen wurde kürzlich vorgeschlagen und hat viel Aufmerksamkeit erregt. Gegeben eine Handvoll Bilder, die ein neuartiges Konzept enthalten (z. B. ein einzigartiges Spielzeug), zielen wir darauf ab, das generative Modell so anzupassen, dass es feine visuelle Details des neuartigen Konzepts erfasst und fotorealistische Bilder gemäß einer Textbedingung generiert. Wir präsentieren eine Plug-in-Methode, genannt ViCo, für schnelle und ressourcenschonende personalisierte Generierung. Insbesondere schlagen wir ein Bild-Attentionsmodul vor, um den Diffusionsprozess auf die patch-basierten visuellen Semantiken zu konditionieren. Wir führen eine auf Aufmerksamkeit basierende Objektmaske ein, die nahezu ohne zusätzlichen Aufwand aus dem Aufmerksamkeitsmodul gewonnen wird. Zudem entwerfen wir eine einfache Regularisierung, die auf den intrinsischen Eigenschaften von Text-Bild-Attentionskarten basiert, um die häufige Überanpassungsdegradation zu mildern. Im Gegensatz zu vielen bestehenden Modellen passt unsere Methode keine Parameter des ursprünglichen Diffusionsmodells an. Dies ermöglicht eine flexiblere und übertragbarere Modellbereitstellung. Mit nur geringem Parametertraining (~6 % des Diffusion U-Nets) erreicht unsere Methode vergleichbare oder sogar bessere Leistungen als alle state-of-the-art Modelle sowohl qualitativ als auch quantitativ.

English

Personalized text-to-image generation using diffusion models has recently been proposed and attracted lots of attention. Given a handful of images containing a novel concept (e.g., a unique toy), we aim to tune the generative model to capture fine visual details of the novel concept and generate photorealistic images following a text condition. We present a plug-in method, named ViCo, for fast and lightweight personalized generation. Specifically, we propose an image attention module to condition the diffusion process on the patch-wise visual semantics. We introduce an attention-based object mask that comes almost at no cost from the attention module. In addition, we design a simple regularization based on the intrinsic properties of text-image attention maps to alleviate the common overfitting degradation. Unlike many existing models, our method does not finetune any parameters of the original diffusion model. This allows more flexible and transferable model deployment. With only light parameter training (~6% of the diffusion U-Net), our method achieves comparable or even better performance than all state-of-the-art models both qualitatively and quantitatively.

ViCo: Detailerhaltende visuelle Bedingung für personalisierte Text-zu-Bild-Generierung

ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image Generation

Zusammenfassung

Support