FiVA: Conjunto de Dados de Atributos Visuais de Granularidade Fina para Modelos de Difusão de Texto para Imagem
FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models
December 10, 2024
Autores: Tong Wu, Yinghao Xu, Ryan Po, Mengchen Zhang, Guandao Yang, Jiaqi Wang, Ziwei Liu, Dahua Lin, Gordon Wetzstein
cs.AI
Resumo
Os avanços recentes na geração de texto para imagem possibilitaram a criação de imagens de alta qualidade com diversas aplicações. No entanto, descrever com precisão atributos visuais desejados pode ser desafiador, especialmente para não especialistas em arte e fotografia. Uma solução intuitiva envolve adotar atributos favoráveis das imagens de origem. Métodos atuais tentam destilar identidade e estilo das imagens de origem. No entanto, "estilo" é um conceito amplo que inclui textura, cor e elementos artísticos, mas não abrange outros atributos importantes como iluminação e dinâmica. Além disso, uma adaptação simplificada de "estilo" impede a combinação de múltiplos atributos de diferentes fontes em uma imagem gerada. Neste trabalho, formulamos uma abordagem mais eficaz para decompor a estética de uma imagem em atributos visuais específicos, permitindo aos usuários aplicar características como iluminação, textura e dinâmica de diferentes imagens. Para alcançar esse objetivo, construímos o primeiro conjunto de dados de atributos visuais detalhados (FiVA) de acordo com nosso conhecimento. Este conjunto de dados FiVA apresenta uma taxonomia bem organizada para atributos visuais e inclui cerca de 1 milhão de imagens geradas de alta qualidade com anotações de atributos visuais. Aproveitando este conjunto de dados, propomos um framework de adaptação de atributos visuais detalhados (FiVA-Adapter), que desvincula e adapta atributos visuais de uma ou mais imagens de origem em uma imagem gerada. Esta abordagem aprimora a personalização amigável ao usuário, permitindo que os usuários apliquem seletivamente atributos desejados para criar imagens que atendam às suas preferências únicas e requisitos de conteúdo específicos.
English
Recent advances in text-to-image generation have enabled the creation of
high-quality images with diverse applications. However, accurately describing
desired visual attributes can be challenging, especially for non-experts in art
and photography. An intuitive solution involves adopting favorable attributes
from the source images. Current methods attempt to distill identity and style
from source images. However, "style" is a broad concept that includes texture,
color, and artistic elements, but does not cover other important attributes
such as lighting and dynamics. Additionally, a simplified "style" adaptation
prevents combining multiple attributes from different sources into one
generated image. In this work, we formulate a more effective approach to
decompose the aesthetics of a picture into specific visual attributes, allowing
users to apply characteristics such as lighting, texture, and dynamics from
different images. To achieve this goal, we constructed the first fine-grained
visual attributes dataset (FiVA) to the best of our knowledge. This FiVA
dataset features a well-organized taxonomy for visual attributes and includes
around 1 M high-quality generated images with visual attribute annotations.
Leveraging this dataset, we propose a fine-grained visual attribute adaptation
framework (FiVA-Adapter), which decouples and adapts visual attributes from one
or more source images into a generated one. This approach enhances
user-friendly customization, allowing users to selectively apply desired
attributes to create images that meet their unique preferences and specific
content requirements.Summary
AI-Generated Summary