FiVA: Conjunto de datos de atributos visuales detallados para modelos de difusión de texto a imagen
FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models
December 10, 2024
Autores: Tong Wu, Yinghao Xu, Ryan Po, Mengchen Zhang, Guandao Yang, Jiaqi Wang, Ziwei Liu, Dahua Lin, Gordon Wetzstein
cs.AI
Resumen
Los avances recientes en la generación de texto a imagen han permitido la creación de imágenes de alta calidad con diversas aplicaciones. Sin embargo, describir con precisión atributos visuales deseados puede resultar desafiante, especialmente para no expertos en arte y fotografía. Una solución intuitiva implica adoptar atributos favorables de las imágenes fuente. Los métodos actuales intentan destilar la identidad y el estilo de las imágenes fuente. Sin embargo, "estilo" es un concepto amplio que incluye textura, color y elementos artísticos, pero no abarca otros atributos importantes como iluminación y dinámica. Además, una adaptación simplificada de "estilo" impide combinar múltiples atributos de diferentes fuentes en una imagen generada. En este trabajo, formulamos un enfoque más efectivo para descomponer la estética de una imagen en atributos visuales específicos, permitiendo a los usuarios aplicar características como iluminación, textura y dinámica de diferentes imágenes. Para lograr este objetivo, construimos el primer conjunto de datos de atributos visuales detallados (FiVA) que tenemos conocimiento. Este conjunto de datos FiVA presenta una taxonomía bien organizada para los atributos visuales e incluye alrededor de 1 millón de imágenes generadas de alta calidad con anotaciones de atributos visuales. Aprovechando este conjunto de datos, proponemos un marco de adaptación de atributos visuales detallados (FiVA-Adapter), que desacopla y adapta los atributos visuales de una o más imágenes fuente en una generada. Este enfoque mejora la personalización amigable para el usuario, permitiendo a los usuarios aplicar selectivamente atributos deseados para crear imágenes que satisfagan sus preferencias únicas y requisitos de contenido específicos.
English
Recent advances in text-to-image generation have enabled the creation of
high-quality images with diverse applications. However, accurately describing
desired visual attributes can be challenging, especially for non-experts in art
and photography. An intuitive solution involves adopting favorable attributes
from the source images. Current methods attempt to distill identity and style
from source images. However, "style" is a broad concept that includes texture,
color, and artistic elements, but does not cover other important attributes
such as lighting and dynamics. Additionally, a simplified "style" adaptation
prevents combining multiple attributes from different sources into one
generated image. In this work, we formulate a more effective approach to
decompose the aesthetics of a picture into specific visual attributes, allowing
users to apply characteristics such as lighting, texture, and dynamics from
different images. To achieve this goal, we constructed the first fine-grained
visual attributes dataset (FiVA) to the best of our knowledge. This FiVA
dataset features a well-organized taxonomy for visual attributes and includes
around 1 M high-quality generated images with visual attribute annotations.
Leveraging this dataset, we propose a fine-grained visual attribute adaptation
framework (FiVA-Adapter), which decouples and adapts visual attributes from one
or more source images into a generated one. This approach enhances
user-friendly customization, allowing users to selectively apply desired
attributes to create images that meet their unique preferences and specific
content requirements.Summary
AI-Generated Summary