レンブラントの牛 - テキストから画像生成モデルにおける芸術的プロンプト解釈の分析
The Cow of Rembrandt - Analyzing Artistic Prompt Interpretation in Text-to-Image Models
July 31, 2025
著者: Alfio Ferrara, Sergio Picascia, Elisabetta Rocchetti
cs.AI
要旨
テキストから画像を生成する拡散モデルは、数十億枚の画像(人気のある芸術作品を含む)を学習することで、芸術的なコンテンツを生成する際に顕著な能力を発揮することが示されています。しかし、これらのモデルが内部でどのように絵画の内容やスタイルといった概念を表現しているかという根本的な疑問は、未だに解明されていません。従来のコンピュータビジョンでは、内容とスタイルは直交していると仮定されていますが、拡散モデルは訓練中にこの区別について明示的な指導を受けていません。本研究では、トランスフォーマーベースのテキストから画像を生成する拡散モデルが、芸術作品を生成する際に内容とスタイルの概念をどのように符号化するかを調査します。クロスアテンションヒートマップを活用して、生成された画像のピクセルを特定のプロンプトトークンに帰属させることで、内容を記述するトークンとスタイルを記述するトークンに影響を受けた画像領域を分離します。我々の調査結果は、拡散モデルが特定の芸術的プロンプトや要求されたスタイルに応じて、内容とスタイルの分離を様々な程度で示すことを明らかにしています。多くの場合、内容トークンは主にオブジェクト関連の領域に影響を与え、スタイルトークンは背景やテクスチャ領域に影響を与えることが示されており、内容とスタイルの区別に対する萌芽的な理解が示唆されています。これらの知見は、大規模生成モデルが明示的な監督なしに複雑な芸術的概念を内部でどのように表現しているかを理解するための一助となります。コードとデータセット、およびアテンションマップを可視化するための探索ツールをhttps://github.com/umilISLab/artistic-prompt-interpretationで公開しています。
English
Text-to-image diffusion models have demonstrated remarkable capabilities in
generating artistic content by learning from billions of images, including
popular artworks. However, the fundamental question of how these models
internally represent concepts, such as content and style in paintings, remains
unexplored. Traditional computer vision assumes content and style are
orthogonal, but diffusion models receive no explicit guidance about this
distinction during training. In this work, we investigate how transformer-based
text-to-image diffusion models encode content and style concepts when
generating artworks. We leverage cross-attention heatmaps to attribute pixels
in generated images to specific prompt tokens, enabling us to isolate image
regions influenced by content-describing versus style-describing tokens. Our
findings reveal that diffusion models demonstrate varying degrees of
content-style separation depending on the specific artistic prompt and style
requested. In many cases, content tokens primarily influence object-related
regions while style tokens affect background and texture areas, suggesting an
emergent understanding of the content-style distinction. These insights
contribute to our understanding of how large-scale generative models internally
represent complex artistic concepts without explicit supervision. We share the
code and dataset, together with an exploratory tool for visualizing attention
maps at https://github.com/umilISLab/artistic-prompt-interpretation.