ChatPaper.aiChatPaper

FiVA : Ensemble de données d'attributs visuels fins pour les modèles de diffusion texte-image

FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models

December 10, 2024
Auteurs: Tong Wu, Yinghao Xu, Ryan Po, Mengchen Zhang, Guandao Yang, Jiaqi Wang, Ziwei Liu, Dahua Lin, Gordon Wetzstein
cs.AI

Résumé

Les récentes avancées en matière de génération de texte vers image ont permis la création d'images de haute qualité avec diverses applications. Cependant, décrire avec précision les attributs visuels souhaités peut être difficile, en particulier pour les non-spécialistes de l'art et de la photographie. Une solution intuitive consiste à adopter les attributs favorables des images sources. Les méthodes actuelles tentent de distiller l'identité et le style des images sources. Cependant, le "style" est un concept large qui englobe la texture, la couleur et les éléments artistiques, mais ne couvre pas d'autres attributs importants tels que l'éclairage et la dynamique. De plus, une adaptation simplifiée du "style" empêche de combiner plusieurs attributs de différentes sources en une seule image générée. Dans ce travail, nous formulons une approche plus efficace pour décomposer l'esthétique d'une image en attributs visuels spécifiques, permettant aux utilisateurs d'appliquer des caractéristiques telles que l'éclairage, la texture et la dynamique à partir d'images différentes. Pour atteindre cet objectif, nous avons construit le premier ensemble de données d'attributs visuels fins (FiVA) à notre connaissance. Cet ensemble de données FiVA présente une taxonomie bien organisée pour les attributs visuels et comprend environ 1 million d'images générées de haute qualité avec des annotations d'attributs visuels. En exploitant cet ensemble de données, nous proposons un cadre d'adaptation d'attributs visuels fins (FiVA-Adapter), qui découple et adapte les attributs visuels d'une ou plusieurs images sources dans une image générée. Cette approche améliore la personnalisation conviviale, permettant aux utilisateurs d'appliquer sélectivement les attributs souhaités pour créer des images répondant à leurs préférences uniques et à des exigences de contenu spécifiques.
English
Recent advances in text-to-image generation have enabled the creation of high-quality images with diverse applications. However, accurately describing desired visual attributes can be challenging, especially for non-experts in art and photography. An intuitive solution involves adopting favorable attributes from the source images. Current methods attempt to distill identity and style from source images. However, "style" is a broad concept that includes texture, color, and artistic elements, but does not cover other important attributes such as lighting and dynamics. Additionally, a simplified "style" adaptation prevents combining multiple attributes from different sources into one generated image. In this work, we formulate a more effective approach to decompose the aesthetics of a picture into specific visual attributes, allowing users to apply characteristics such as lighting, texture, and dynamics from different images. To achieve this goal, we constructed the first fine-grained visual attributes dataset (FiVA) to the best of our knowledge. This FiVA dataset features a well-organized taxonomy for visual attributes and includes around 1 M high-quality generated images with visual attribute annotations. Leveraging this dataset, we propose a fine-grained visual attribute adaptation framework (FiVA-Adapter), which decouples and adapts visual attributes from one or more source images into a generated one. This approach enhances user-friendly customization, allowing users to selectively apply desired attributes to create images that meet their unique preferences and specific content requirements.

Summary

AI-Generated Summary

PDF202December 11, 2024