ChatPaper.aiChatPaper

DreamDistribution: Prompt-Verteilungs-Lernen für Text-zu-Bild-Diffusionsmodelle

DreamDistribution: Prompt Distribution Learning for Text-to-Image Diffusion Models

December 21, 2023
Autoren: Brian Nlong Zhao, Yuhang Xiao, Jiashu Xu, Xinyang Jiang, Yifan Yang, Dongsheng Li, Laurent Itti, Vibhav Vineet, Yunhao Ge
cs.AI

Zusammenfassung

Die Popularisierung von Text-zu-Bild (T2I) Diffusionsmodellen ermöglicht die Erzeugung hochwertiger Bilder aus Textbeschreibungen. Die Generierung vielfältiger, personalisierter Bilder mit referenziellen visuellen Attributen bleibt jedoch eine Herausforderung. Diese Arbeit konzentriert sich auf die Personalisierung von T2I-Diffusionsmodellen auf einer abstrakteren Konzept- oder Kategorieebene, indem Gemeinsamkeiten aus einer Reihe von Referenzbildern adaptiert werden, während gleichzeitig neue Instanzen mit ausreichenden Variationen erzeugt werden. Wir stellen eine Lösung vor, die es einem vortrainierten T2I-Diffusionsmodell ermöglicht, eine Reihe von Soft Prompts zu lernen, wodurch die Generierung neuer Bilder durch das Sampling von Prompts aus der gelernten Verteilung ermöglicht wird. Diese Prompts bieten textgesteuerte Bearbeitungsmöglichkeiten und zusätzliche Flexibilität bei der Kontrolle von Variationen und der Mischung zwischen mehreren Verteilungen. Wir zeigen auch die Anpassungsfähigkeit der gelernten Prompt-Verteilung für andere Aufgaben, wie Text-zu-3D. Schließlich demonstrieren wir die Wirksamkeit unseres Ansatzes durch quantitative Analysen, einschließlich automatischer Bewertungen und menschlicher Beurteilungen. Projektwebsite: https://briannlongzhao.github.io/DreamDistribution
English
The popularization of Text-to-Image (T2I) diffusion models enables the generation of high-quality images from text descriptions. However, generating diverse customized images with reference visual attributes remains challenging. This work focuses on personalizing T2I diffusion models at a more abstract concept or category level, adapting commonalities from a set of reference images while creating new instances with sufficient variations. We introduce a solution that allows a pretrained T2I diffusion model to learn a set of soft prompts, enabling the generation of novel images by sampling prompts from the learned distribution. These prompts offer text-guided editing capabilities and additional flexibility in controlling variation and mixing between multiple distributions. We also show the adaptability of the learned prompt distribution to other tasks, such as text-to-3D. Finally we demonstrate effectiveness of our approach through quantitative analysis including automatic evaluation and human assessment. Project website: https://briannlongzhao.github.io/DreamDistribution
PDF121December 15, 2024