La Mucca di Rembrandt - Analisi dell'Interpretazione dei Prompt Artistici nei Modelli di Generazione di Immagini da Testo
The Cow of Rembrandt - Analyzing Artistic Prompt Interpretation in Text-to-Image Models
July 31, 2025
Autori: Alfio Ferrara, Sergio Picascia, Elisabetta Rocchetti
cs.AI
Abstract
I modelli di diffusione text-to-image hanno dimostrato capacità straordinarie nella generazione di contenuti artistici apprendendo da miliardi di immagini, incluse opere d'arte popolari. Tuttavia, la questione fondamentale di come questi modelli rappresentino internamente concetti, come contenuto e stile nei dipinti, rimane inesplorata. La visione artificiale tradizionale presuppone che contenuto e stile siano ortogonali, ma i modelli di diffusione non ricevono alcuna guida esplicita su questa distinzione durante l'addestramento. In questo lavoro, indaghiamo come i modelli di diffusione text-to-image basati su transformer codifichino i concetti di contenuto e stile durante la generazione di opere d'arte. Utilizziamo mappe di calore cross-attention per attribuire i pixel nelle immagini generate a specifici token del prompt, consentendoci di isolare le regioni dell'immagine influenzate da token che descrivono il contenuto rispetto a quelli che descrivono lo stile. Le nostre scoperte rivelano che i modelli di diffusione mostrano diversi gradi di separazione tra contenuto e stile a seconda del prompt artistico specifico e dello stile richiesto. In molti casi, i token di contenuto influenzano principalmente le regioni relative agli oggetti, mentre i token di stile influenzano lo sfondo e le aree di texture, suggerendo una comprensione emergente della distinzione tra contenuto e stile. Questi approfondimenti contribuiscono alla nostra comprensione di come i modelli generativi su larga scala rappresentino internamente concetti artistici complessi senza una supervisione esplicita. Condividiamo il codice e il dataset, insieme a uno strumento esplorativo per visualizzare le mappe di attenzione all'indirizzo https://github.com/umilISLab/artistic-prompt-interpretation.
English
Text-to-image diffusion models have demonstrated remarkable capabilities in
generating artistic content by learning from billions of images, including
popular artworks. However, the fundamental question of how these models
internally represent concepts, such as content and style in paintings, remains
unexplored. Traditional computer vision assumes content and style are
orthogonal, but diffusion models receive no explicit guidance about this
distinction during training. In this work, we investigate how transformer-based
text-to-image diffusion models encode content and style concepts when
generating artworks. We leverage cross-attention heatmaps to attribute pixels
in generated images to specific prompt tokens, enabling us to isolate image
regions influenced by content-describing versus style-describing tokens. Our
findings reveal that diffusion models demonstrate varying degrees of
content-style separation depending on the specific artistic prompt and style
requested. In many cases, content tokens primarily influence object-related
regions while style tokens affect background and texture areas, suggesting an
emergent understanding of the content-style distinction. These insights
contribute to our understanding of how large-scale generative models internally
represent complex artistic concepts without explicit supervision. We share the
code and dataset, together with an exploratory tool for visualizing attention
maps at https://github.com/umilISLab/artistic-prompt-interpretation.