Die Kuh von Rembrandt – Analyse der Interpretation künstlerischer Anweisungen in Text-zu-Bild-Modellen
The Cow of Rembrandt - Analyzing Artistic Prompt Interpretation in Text-to-Image Models
July 31, 2025
papers.authors: Alfio Ferrara, Sergio Picascia, Elisabetta Rocchetti
cs.AI
papers.abstract
Text-to-Image-Diffusionsmodelle haben bemerkenswerte Fähigkeiten bei der Erzeugung künstlerischer Inhalte demonstriert, indem sie aus Milliarden von Bildern, einschließlich populärer Kunstwerke, lernen. Die grundlegende Frage, wie diese Modelle intern Konzepte wie Inhalt und Stil in Gemälden repräsentieren, bleibt jedoch unerforscht. Die traditionelle Computer Vision geht davon aus, dass Inhalt und Stil orthogonal sind, doch Diffusionsmodelle erhalten während des Trainings keine explizite Anleitung zu dieser Unterscheidung. In dieser Arbeit untersuchen wir, wie transformerbasierte Text-to-Image-Diffusionsmodelle Inhalts- und Stilkonzepte kodieren, wenn sie Kunstwerke erzeugen. Wir nutzen Cross-Attention-Heatmaps, um Pixel in generierten Bildern bestimmten Prompt-Tokens zuzuordnen, wodurch wir Bildregionen isolieren können, die durch inhaltsbeschreibende oder stilbeschreibende Tokens beeinflusst werden. Unsere Ergebnisse zeigen, dass Diffusionsmodelle je nach spezifischem künstlerischen Prompt und angefordertem Stil unterschiedliche Grade der Trennung von Inhalt und Stil aufweisen. In vielen Fällen beeinflussen Inhalts-Tokens hauptsächlich objektbezogene Regionen, während Stil-Tokens Hintergrund- und Texturbereiche beeinflussen, was auf ein emergentes Verständnis der Unterscheidung zwischen Inhalt und Stil hindeutet. Diese Erkenntnisse tragen zu unserem Verständnis bei, wie großskalige generative Modelle komplexe künstlerische Konzepte ohne explizite Überwachung intern repräsentieren. Wir teilen den Code und den Datensatz zusammen mit einem explorativen Tool zur Visualisierung von Attention-Maps unter https://github.com/umilISLab/artistic-prompt-interpretation.
English
Text-to-image diffusion models have demonstrated remarkable capabilities in
generating artistic content by learning from billions of images, including
popular artworks. However, the fundamental question of how these models
internally represent concepts, such as content and style in paintings, remains
unexplored. Traditional computer vision assumes content and style are
orthogonal, but diffusion models receive no explicit guidance about this
distinction during training. In this work, we investigate how transformer-based
text-to-image diffusion models encode content and style concepts when
generating artworks. We leverage cross-attention heatmaps to attribute pixels
in generated images to specific prompt tokens, enabling us to isolate image
regions influenced by content-describing versus style-describing tokens. Our
findings reveal that diffusion models demonstrate varying degrees of
content-style separation depending on the specific artistic prompt and style
requested. In many cases, content tokens primarily influence object-related
regions while style tokens affect background and texture areas, suggesting an
emergent understanding of the content-style distinction. These insights
contribute to our understanding of how large-scale generative models internally
represent complex artistic concepts without explicit supervision. We share the
code and dataset, together with an exploratory tool for visualizing attention
maps at https://github.com/umilISLab/artistic-prompt-interpretation.