FiVA: Fijnmazige Visuele Attribuut Dataset voor Tekst-naar-Afbeelding Diffusie Modellen
FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models
December 10, 2024
Auteurs: Tong Wu, Yinghao Xu, Ryan Po, Mengchen Zhang, Guandao Yang, Jiaqi Wang, Ziwei Liu, Dahua Lin, Gordon Wetzstein
cs.AI
Samenvatting
Recente ontwikkelingen in tekst-naar-afbeelding generatie hebben het mogelijk gemaakt om hoogwaardige afbeeldingen te creëren met diverse toepassingen. Het nauwkeurig beschrijven van gewenste visuele kenmerken kan echter uitdagend zijn, vooral voor niet-experts in kunst en fotografie. Een intuïtieve oplossing houdt in het overnemen van gunstige kenmerken van de bronafbeeldingen. Huidige methoden proberen identiteit en stijl te destilleren uit bronafbeeldingen. Echter, "stijl" is een breed concept dat texturen, kleuren en artistieke elementen omvat, maar niet andere belangrijke kenmerken zoals belichting en dynamiek. Bovendien voorkomt een vereenvoudigde "stijl" aanpassing het combineren van meerdere kenmerken van verschillende bronnen in één gegenereerde afbeelding. In dit werk formuleren we een effectievere benadering om de esthetiek van een afbeelding te ontleden in specifieke visuele kenmerken, waardoor gebruikers eigenschappen zoals belichting, textuur en dynamiek van verschillende afbeeldingen kunnen toepassen. Om dit doel te bereiken, hebben we naar ons beste weten het eerste fijnmazige visuele kenmerken dataset (FiVA) geconstrueerd. Deze FiVA dataset bevat een goed georganiseerde taxonomie voor visuele kenmerken en omvat ongeveer 1 miljoen hoogwaardige gegenereerde afbeeldingen met visuele attribuut annotaties. Door gebruik te maken van deze dataset, stellen we een fijnmazig visueel kenmerken aanpassingskader (FiVA-Adapter) voor, dat visuele kenmerken ontkoppelt en aanpast van één of meerdere bronafbeeldingen naar een gegenereerde afbeelding. Deze benadering verbetert de gebruiksvriendelijke aanpassing, waardoor gebruikers selectief gewenste kenmerken kunnen toepassen om afbeeldingen te creëren die voldoen aan hun unieke voorkeuren en specifieke inhoudseisen.
English
Recent advances in text-to-image generation have enabled the creation of
high-quality images with diverse applications. However, accurately describing
desired visual attributes can be challenging, especially for non-experts in art
and photography. An intuitive solution involves adopting favorable attributes
from the source images. Current methods attempt to distill identity and style
from source images. However, "style" is a broad concept that includes texture,
color, and artistic elements, but does not cover other important attributes
such as lighting and dynamics. Additionally, a simplified "style" adaptation
prevents combining multiple attributes from different sources into one
generated image. In this work, we formulate a more effective approach to
decompose the aesthetics of a picture into specific visual attributes, allowing
users to apply characteristics such as lighting, texture, and dynamics from
different images. To achieve this goal, we constructed the first fine-grained
visual attributes dataset (FiVA) to the best of our knowledge. This FiVA
dataset features a well-organized taxonomy for visual attributes and includes
around 1 M high-quality generated images with visual attribute annotations.
Leveraging this dataset, we propose a fine-grained visual attribute adaptation
framework (FiVA-Adapter), which decouples and adapts visual attributes from one
or more source images into a generated one. This approach enhances
user-friendly customization, allowing users to selectively apply desired
attributes to create images that meet their unique preferences and specific
content requirements.Summary
AI-Generated Summary