FiVA: テキストから画像への拡散モデルのための細かい視覚属性データセット
FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models
December 10, 2024
著者: Tong Wu, Yinghao Xu, Ryan Po, Mengchen Zhang, Guandao Yang, Jiaqi Wang, Ziwei Liu, Dahua Lin, Gordon Wetzstein
cs.AI
要旨
最近のテキストから画像生成の進歩により、多様な応用を持つ高品質な画像の作成が可能となりました。しかし、特に芸術や写真の非専門家にとって、望ましい視覚的属性を正確に記述することは難しい場合があります。直感的な解決策は、ソース画像から好ましい属性を取り入れることです。現在の手法は、ソース画像からアイデンティティとスタイルを抽出しようとします。ただし、「スタイル」はテクスチャ、色、芸術的要素を含む広範な概念ですが、照明やダイナミクスなどの他の重要な属性はカバーしていません。さらに、単純化された「スタイル」の適応は、異なるソースからの複数の属性を1つの生成された画像に組み合わせることを防ぎます。本研究では、画像の美学を特定の視覚的属性に分解するより効果的なアプローチを定式化しています。これにより、ユーザーが異なる画像から照明、テクスチャ、ダイナミクスなどの特性を適用できるようになります。この目標を達成するために、私たちは、私たちの知識に基づいて初めての細かい視覚的属性データセット(FiVA)を構築しました。このFiVAデータセットは、視覚的属性のための整理されたタクソノミーを特徴とし、視覚的属性の注釈が付いた約100万枚の高品質生成画像を含んでいます。このデータセットを活用して、私たちは、1つまたは複数のソース画像から視覚的属性を生成された画像に分離して適応する細かい視覚的属性適応フレームワーク(FiVA-Adapter)を提案しています。このアプローチにより、ユーザーフレンドリーなカスタマイズが向上し、ユーザーが特有の好みや具体的なコンテンツ要件に合う画像を作成するために望ましい属性を選択的に適用できます。
English
Recent advances in text-to-image generation have enabled the creation of
high-quality images with diverse applications. However, accurately describing
desired visual attributes can be challenging, especially for non-experts in art
and photography. An intuitive solution involves adopting favorable attributes
from the source images. Current methods attempt to distill identity and style
from source images. However, "style" is a broad concept that includes texture,
color, and artistic elements, but does not cover other important attributes
such as lighting and dynamics. Additionally, a simplified "style" adaptation
prevents combining multiple attributes from different sources into one
generated image. In this work, we formulate a more effective approach to
decompose the aesthetics of a picture into specific visual attributes, allowing
users to apply characteristics such as lighting, texture, and dynamics from
different images. To achieve this goal, we constructed the first fine-grained
visual attributes dataset (FiVA) to the best of our knowledge. This FiVA
dataset features a well-organized taxonomy for visual attributes and includes
around 1 M high-quality generated images with visual attribute annotations.
Leveraging this dataset, we propose a fine-grained visual attribute adaptation
framework (FiVA-Adapter), which decouples and adapts visual attributes from one
or more source images into a generated one. This approach enhances
user-friendly customization, allowing users to selectively apply desired
attributes to create images that meet their unique preferences and specific
content requirements.Summary
AI-Generated Summary