ChatPaper.aiChatPaper

FiVA: Набор данных FeVA для моделей диффузии текста в изображение с тонкой детализацией визуальных атрибутов

FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models

December 10, 2024
Авторы: Tong Wu, Yinghao Xu, Ryan Po, Mengchen Zhang, Guandao Yang, Jiaqi Wang, Ziwei Liu, Dahua Lin, Gordon Wetzstein
cs.AI

Аннотация

Недавние достижения в генерации текста в изображение позволили создавать изображения высокого качества с разнообразными применениями. Однако точное описание желаемых визуальных атрибутов может быть сложным, особенно для неспециалистов в области искусства и фотографии. Интуитивным решением является принятие благоприятных атрибутов из исходных изображений. Нынешние методы пытаются извлечь идентичность и стиль из исходных изображений. Однако "стиль" - это широкое понятие, которое включает в себя текстуру, цвет и художественные элементы, но не охватывает другие важные атрибуты, такие как освещение и динамика. Кроме того, упрощенная "стилевая" адаптация препятствует объединению нескольких атрибутов из разных источников в одно созданное изображение. В данной работе мы формулируем более эффективный подход к декомпозиции эстетики изображения на конкретные визуальные атрибуты, позволяя пользователям применять характеристики, такие как освещение, текстура и динамика из различных изображений. Для достижения этой цели мы создали первый датасет тонких визуальных атрибутов (FiVA), насколько нам известно. Этот датасет FiVA содержит хорошо организованную таксономию визуальных атрибутов и включает около 1 млн высококачественных сгенерированных изображений с аннотациями визуальных атрибутов. Используя этот датасет, мы предлагаем рамочный механизм адаптации тонких визуальных атрибутов (FiVA-Adapter), который разделяет и адаптирует визуальные атрибуты из одного или нескольких исходных изображений в созданное изображение. Этот подход повышает удобство настройки, позволяя пользователям выборочно применять желаемые атрибуты для создания изображений, отвечающих их уникальным предпочтениям и конкретным требованиям контента.
English
Recent advances in text-to-image generation have enabled the creation of high-quality images with diverse applications. However, accurately describing desired visual attributes can be challenging, especially for non-experts in art and photography. An intuitive solution involves adopting favorable attributes from the source images. Current methods attempt to distill identity and style from source images. However, "style" is a broad concept that includes texture, color, and artistic elements, but does not cover other important attributes such as lighting and dynamics. Additionally, a simplified "style" adaptation prevents combining multiple attributes from different sources into one generated image. In this work, we formulate a more effective approach to decompose the aesthetics of a picture into specific visual attributes, allowing users to apply characteristics such as lighting, texture, and dynamics from different images. To achieve this goal, we constructed the first fine-grained visual attributes dataset (FiVA) to the best of our knowledge. This FiVA dataset features a well-organized taxonomy for visual attributes and includes around 1 M high-quality generated images with visual attribute annotations. Leveraging this dataset, we propose a fine-grained visual attribute adaptation framework (FiVA-Adapter), which decouples and adapts visual attributes from one or more source images into a generated one. This approach enhances user-friendly customization, allowing users to selectively apply desired attributes to create images that meet their unique preferences and specific content requirements.

Summary

AI-Generated Summary

PDF202December 11, 2024