La vaca de Rembrandt: Análisis de la interpretación de indicaciones artísticas en modelos de texto a imagen
The Cow of Rembrandt - Analyzing Artistic Prompt Interpretation in Text-to-Image Models
July 31, 2025
Autores: Alfio Ferrara, Sergio Picascia, Elisabetta Rocchetti
cs.AI
Resumen
Los modelos de difusión de texto a imagen han demostrado capacidades notables en la generación de contenido artístico al aprender de miles de millones de imágenes, incluidas obras de arte populares. Sin embargo, la pregunta fundamental de cómo estos modelos representan internamente conceptos, como el contenido y el estilo en las pinturas, sigue sin explorarse. La visión por computadora tradicional asume que el contenido y el estilo son ortogonales, pero los modelos de difusión no reciben orientación explícita sobre esta distinción durante el entrenamiento. En este trabajo, investigamos cómo los modelos de difusión de texto a imagen basados en transformadores codifican los conceptos de contenido y estilo al generar obras de arte. Utilizamos mapas de calor de atención cruzada para atribuir píxeles en las imágenes generadas a tokens específicos del prompt, lo que nos permite aislar las regiones de la imagen influenciadas por tokens que describen contenido frente a aquellos que describen estilo. Nuestros hallazgos revelan que los modelos de difusión muestran distintos grados de separación entre contenido y estilo dependiendo del prompt artístico específico y del estilo solicitado. En muchos casos, los tokens de contenido influyen principalmente en las regiones relacionadas con objetos, mientras que los tokens de estilo afectan áreas de fondo y texturas, lo que sugiere una comprensión emergente de la distinción entre contenido y estilo. Estas contribuciones mejoran nuestra comprensión de cómo los modelos generativos a gran escala representan internamente conceptos artísticos complejos sin supervisión explícita. Compartimos el código y el conjunto de datos, junto con una herramienta exploratoria para visualizar mapas de atención en https://github.com/umilISLab/artistic-prompt-interpretation.
English
Text-to-image diffusion models have demonstrated remarkable capabilities in
generating artistic content by learning from billions of images, including
popular artworks. However, the fundamental question of how these models
internally represent concepts, such as content and style in paintings, remains
unexplored. Traditional computer vision assumes content and style are
orthogonal, but diffusion models receive no explicit guidance about this
distinction during training. In this work, we investigate how transformer-based
text-to-image diffusion models encode content and style concepts when
generating artworks. We leverage cross-attention heatmaps to attribute pixels
in generated images to specific prompt tokens, enabling us to isolate image
regions influenced by content-describing versus style-describing tokens. Our
findings reveal that diffusion models demonstrate varying degrees of
content-style separation depending on the specific artistic prompt and style
requested. In many cases, content tokens primarily influence object-related
regions while style tokens affect background and texture areas, suggesting an
emergent understanding of the content-style distinction. These insights
contribute to our understanding of how large-scale generative models internally
represent complex artistic concepts without explicit supervision. We share the
code and dataset, together with an exploratory tool for visualizing attention
maps at https://github.com/umilISLab/artistic-prompt-interpretation.