La Vache de Rembrandt - Analyse de l'interprétation des prompts artistiques dans les modèles de génération d'images à partir de texte
The Cow of Rembrandt - Analyzing Artistic Prompt Interpretation in Text-to-Image Models
July 31, 2025
papers.authors: Alfio Ferrara, Sergio Picascia, Elisabetta Rocchetti
cs.AI
papers.abstract
Les modèles de diffusion texte-image ont démontré des capacités remarquables dans la génération de contenu artistique en apprenant à partir de milliards d'images, y compris des œuvres d'art populaires. Cependant, la question fondamentale de la manière dont ces modèles représentent en interne des concepts, tels que le contenu et le style dans les peintures, reste inexplorée. La vision par ordinateur traditionnelle suppose que le contenu et le style sont orthogonaux, mais les modèles de diffusion ne reçoivent aucune guidance explicite concernant cette distinction pendant leur entraînement. Dans ce travail, nous étudions comment les modèles de diffusion texte-image basés sur des transformers encodent les concepts de contenu et de style lors de la génération d'œuvres d'art. Nous exploitons des cartes de chaleur d'attention croisée pour attribuer les pixels des images générées à des tokens spécifiques du prompt, nous permettant ainsi d'isoler les régions de l'image influencées par les tokens décrivant le contenu par rapport à ceux décrivant le style. Nos résultats révèlent que les modèles de diffusion montrent des degrés variables de séparation contenu-style en fonction du prompt artistique spécifique et du style demandé. Dans de nombreux cas, les tokens de contenu influencent principalement les régions liées aux objets, tandis que les tokens de style affectent les zones de fond et de texture, suggérant une compréhension émergente de la distinction entre contenu et style. Ces insights contribuent à notre compréhension de la manière dont les modèles génératifs à grande échelle représentent en interne des concepts artistiques complexes sans supervision explicite. Nous partageons le code et le jeu de données, ainsi qu'un outil d'exploration pour visualiser les cartes d'attention à l'adresse https://github.com/umilISLab/artistic-prompt-interpretation.
English
Text-to-image diffusion models have demonstrated remarkable capabilities in
generating artistic content by learning from billions of images, including
popular artworks. However, the fundamental question of how these models
internally represent concepts, such as content and style in paintings, remains
unexplored. Traditional computer vision assumes content and style are
orthogonal, but diffusion models receive no explicit guidance about this
distinction during training. In this work, we investigate how transformer-based
text-to-image diffusion models encode content and style concepts when
generating artworks. We leverage cross-attention heatmaps to attribute pixels
in generated images to specific prompt tokens, enabling us to isolate image
regions influenced by content-describing versus style-describing tokens. Our
findings reveal that diffusion models demonstrate varying degrees of
content-style separation depending on the specific artistic prompt and style
requested. In many cases, content tokens primarily influence object-related
regions while style tokens affect background and texture areas, suggesting an
emergent understanding of the content-style distinction. These insights
contribute to our understanding of how large-scale generative models internally
represent complex artistic concepts without explicit supervision. We share the
code and dataset, together with an exploratory tool for visualizing attention
maps at https://github.com/umilISLab/artistic-prompt-interpretation.