ChatPaper.aiChatPaper

De koe van Rembrandt - Analyse van de interpretatie van artistieke prompts in tekst-naar-beeldmodellen

The Cow of Rembrandt - Analyzing Artistic Prompt Interpretation in Text-to-Image Models

July 31, 2025
Auteurs: Alfio Ferrara, Sergio Picascia, Elisabetta Rocchetti
cs.AI

Samenvatting

Text-to-image diffusiemodellen hebben opmerkelijke capaciteiten getoond in het genereren van artistieke inhoud door te leren van miljarden afbeeldingen, waaronder populaire kunstwerken. De fundamentele vraag hoe deze modellen concepten intern representeren, zoals inhoud en stijl in schilderijen, blijft echter onontgonnen. Traditionele computervisie gaat ervan uit dat inhoud en stijl orthogonaal zijn, maar diffusiemodellen krijgen tijdens de training geen expliciete begeleiding over dit onderscheid. In dit werk onderzoeken we hoe transformer-gebaseerde text-to-image diffusiemodellen inhoud- en stijlconcepten coderen bij het genereren van kunstwerken. We maken gebruik van cross-attention heatmaps om pixels in gegenereerde afbeeldingen toe te schrijven aan specifieke prompttokens, waardoor we beeldregio's kunnen isoleren die worden beïnvloed door inhoudsbeschrijvende versus stijlbeschrijvende tokens. Onze bevindingen onthullen dat diffusiemodellen verschillende gradaties van inhoud-stijl scheiding vertonen, afhankelijk van de specifieke artistieke prompt en de gevraagde stijl. In veel gevallen beïnvloeden inhoudstokens voornamelijk objectgerelateerde regio's, terwijl stijltokens de achtergrond en textuurgebieden beïnvloeden, wat wijst op een emergent begrip van het inhoud-stijl onderscheid. Deze inzichten dragen bij aan ons begrip van hoe grootschalige generatieve modellen complexe artistieke concepten intern representeren zonder expliciete supervisie. We delen de code en dataset, samen met een verkennend hulpmiddel voor het visualiseren van aandachtmaps op https://github.com/umilISLab/artistic-prompt-interpretation.
English
Text-to-image diffusion models have demonstrated remarkable capabilities in generating artistic content by learning from billions of images, including popular artworks. However, the fundamental question of how these models internally represent concepts, such as content and style in paintings, remains unexplored. Traditional computer vision assumes content and style are orthogonal, but diffusion models receive no explicit guidance about this distinction during training. In this work, we investigate how transformer-based text-to-image diffusion models encode content and style concepts when generating artworks. We leverage cross-attention heatmaps to attribute pixels in generated images to specific prompt tokens, enabling us to isolate image regions influenced by content-describing versus style-describing tokens. Our findings reveal that diffusion models demonstrate varying degrees of content-style separation depending on the specific artistic prompt and style requested. In many cases, content tokens primarily influence object-related regions while style tokens affect background and texture areas, suggesting an emergent understanding of the content-style distinction. These insights contribute to our understanding of how large-scale generative models internally represent complex artistic concepts without explicit supervision. We share the code and dataset, together with an exploratory tool for visualizing attention maps at https://github.com/umilISLab/artistic-prompt-interpretation.
PDF12August 7, 2025