FiVA: Feinkörniger visueller Attributdatensatz für Text-zu-Bild-Diffusionsmodelle
FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models
December 10, 2024
Autoren: Tong Wu, Yinghao Xu, Ryan Po, Mengchen Zhang, Guandao Yang, Jiaqi Wang, Ziwei Liu, Dahua Lin, Gordon Wetzstein
cs.AI
Zusammenfassung
In jüngster Zeit haben Fortschritte in der Text-zu-Bild-Erzeugung die Erstellung von hochwertigen Bildern mit vielfältigen Anwendungen ermöglicht. Es kann jedoch herausfordernd sein, gewünschte visuelle Attribute genau zu beschreiben, insbesondere für Nicht-Experten in Kunst und Fotografie. Eine intuitive Lösung besteht darin, vorteilhafte Attribute aus den Ausgangsbildern zu übernehmen. Aktuelle Methoden versuchen, Identität und Stil aus den Ausgangsbildern zu destillieren. Allerdings ist "Stil" ein breites Konzept, das Textur, Farbe und künstlerische Elemente umfasst, jedoch nicht andere wichtige Attribute wie Beleuchtung und Dynamik abdeckt. Darüber hinaus verhindert eine vereinfachte "Stil"-Anpassung das Kombinieren mehrerer Attribute aus verschiedenen Quellen in einem generierten Bild. In dieser Arbeit formulieren wir einen effektiveren Ansatz, um die Ästhetik eines Bildes in spezifische visuelle Attribute zu zerlegen, was es Benutzern ermöglicht, Merkmale wie Beleuchtung, Textur und Dynamik aus verschiedenen Bildern anzuwenden. Um dieses Ziel zu erreichen, haben wir nach unserem besten Wissen den ersten Feinkörnigen Visuellen Attribute Datensatz (FiVA) konstruiert. Dieser FiVA-Datensatz verfügt über eine gut organisierte Taxonomie für visuelle Attribute und umfasst etwa 1 M hochwertige generierte Bilder mit visuellen Attributannotationen. Unter Verwendung dieses Datensatzes schlagen wir ein Feinkörniges Visuelles Attribut-Anpassungsrahmen (FiVA-Adapter) vor, der visuelle Attribute von einem oder mehreren Ausgangsbildern entkoppelt und anpasst in ein generiertes Bild. Dieser Ansatz verbessert die benutzerfreundliche Anpassung, indem Benutzer selektiv gewünschte Attribute anwenden können, um Bilder zu erstellen, die ihren einzigartigen Vorlieben und spezifischen Inhaltsanforderungen entsprechen.
English
Recent advances in text-to-image generation have enabled the creation of
high-quality images with diverse applications. However, accurately describing
desired visual attributes can be challenging, especially for non-experts in art
and photography. An intuitive solution involves adopting favorable attributes
from the source images. Current methods attempt to distill identity and style
from source images. However, "style" is a broad concept that includes texture,
color, and artistic elements, but does not cover other important attributes
such as lighting and dynamics. Additionally, a simplified "style" adaptation
prevents combining multiple attributes from different sources into one
generated image. In this work, we formulate a more effective approach to
decompose the aesthetics of a picture into specific visual attributes, allowing
users to apply characteristics such as lighting, texture, and dynamics from
different images. To achieve this goal, we constructed the first fine-grained
visual attributes dataset (FiVA) to the best of our knowledge. This FiVA
dataset features a well-organized taxonomy for visual attributes and includes
around 1 M high-quality generated images with visual attribute annotations.
Leveraging this dataset, we propose a fine-grained visual attribute adaptation
framework (FiVA-Adapter), which decouples and adapts visual attributes from one
or more source images into a generated one. This approach enhances
user-friendly customization, allowing users to selectively apply desired
attributes to create images that meet their unique preferences and specific
content requirements.Summary
AI-Generated Summary