Stylebreeder: テキストから画像生成モデルを用いた芸術的スタイルの探索と民主化
Stylebreeder: Exploring and Democratizing Artistic Styles through Text-to-Image Models
June 20, 2024
著者: Matthew Zheng, Enis Simsar, Hidir Yesiltepe, Federico Tombari, Joel Simon, Pinar Yanardag
cs.AI
要旨
テキストから画像を生成するモデルは、非常に詳細で創造的なビジュアルコンテンツの生成を可能にすることで、デジタルアート制作の風景を革新し、ますます人気を集めています。これらのモデルは、特にアート生成の分野で広く活用されており、幅広い創造的な表現を促進し、アート制作へのアクセスを民主化しています。本論文では、1300万人以上のユーザーを抱える創造的探求の重要なプラットフォームとして登場したArtbreederにおいて、95,000人のユーザーによって生成された680万枚の画像と180万のプロンプトからなる包括的なデータセット「STYLEBREEDER」を紹介します。このデータセットを用いて、多様なアートスタイルの識別、パーソナライズされたコンテンツの生成、ユーザーの興味に基づいたスタイルの推薦を目的とした一連のタスクを提案します。従来の「サイバーパンク」や「ピカソ」といったカテゴリーを超越したユーザー生成の独自のスタイルを記録することで、世界中のユーザーの集合的な創造的心理に対する深い洞察を提供する可能性を探ります。また、芸術的表現を強化するための様々なパーソナライゼーション手法を評価し、LoRA形式で公開するスタイルアトラスを紹介します。私たちの研究は、テキストから画像を生成する拡散モデルが、独自の芸術的表現を発見し促進する可能性を示し、アートにおけるAIの民主化をさらに進め、より多様で包括的なアートコミュニティを育むことを実証しています。データセット、コード、モデルは、パブリックドメイン(CC0)ライセンスの下、https://stylebreeder.github.io で公開されています。
English
Text-to-image models are becoming increasingly popular, revolutionizing the
landscape of digital art creation by enabling highly detailed and creative
visual content generation. These models have been widely employed across
various domains, particularly in art generation, where they facilitate a broad
spectrum of creative expression and democratize access to artistic creation. In
this paper, we introduce STYLEBREEDER, a comprehensive dataset of 6.8M
images and 1.8M prompts generated by 95K users on Artbreeder, a platform that
has emerged as a significant hub for creative exploration with over 13M users.
We introduce a series of tasks with this dataset aimed at identifying diverse
artistic styles, generating personalized content, and recommending styles based
on user interests. By documenting unique, user-generated styles that transcend
conventional categories like 'cyberpunk' or 'Picasso,' we explore the potential
for unique, crowd-sourced styles that could provide deep insights into the
collective creative psyche of users worldwide. We also evaluate different
personalization methods to enhance artistic expression and introduce a style
atlas, making these models available in LoRA format for public use. Our
research demonstrates the potential of text-to-image diffusion models to
uncover and promote unique artistic expressions, further democratizing AI in
art and fostering a more diverse and inclusive artistic community. The dataset,
code and models are available at https://stylebreeder.github.io under a Public
Domain (CC0) license.Summary
AI-Generated Summary