ChatPaper.aiChatPaper

A Vaca de Rembrandt - Analisando a Interpretação de Prompts Artísticos em Modelos de Texto para Imagem

The Cow of Rembrandt - Analyzing Artistic Prompt Interpretation in Text-to-Image Models

July 31, 2025
Autores: Alfio Ferrara, Sergio Picascia, Elisabetta Rocchetti
cs.AI

Resumo

Modelos de difusão de texto para imagem demonstraram capacidades notáveis na geração de conteúdo artístico ao aprenderem com bilhões de imagens, incluindo obras de arte populares. No entanto, a questão fundamental de como esses modelos representam internamente conceitos, como conteúdo e estilo em pinturas, permanece inexplorada. A visão computacional tradicional assume que conteúdo e estilo são ortogonais, mas os modelos de difusão não recebem orientação explícita sobre essa distinção durante o treinamento. Neste trabalho, investigamos como modelos de difusão de texto para imagem baseados em transformers codificam conceitos de conteúdo e estilo ao gerar obras de arte. Utilizamos mapas de calor de atenção cruzada para atribuir pixels em imagens geradas a tokens específicos do prompt, permitindo-nos isolar regiões da imagem influenciadas por tokens que descrevem conteúdo versus tokens que descrevem estilo. Nossas descobertas revelam que os modelos de difusão demonstram graus variados de separação entre conteúdo e estilo, dependendo do prompt artístico específico e do estilo solicitado. Em muitos casos, os tokens de conteúdo influenciam principalmente regiões relacionadas a objetos, enquanto os tokens de estilo afetam áreas de fundo e textura, sugerindo um entendimento emergente da distinção entre conteúdo e estilo. Esses insights contribuem para nossa compreensão de como modelos generativos em larga escala representam internamente conceitos artísticos complexos sem supervisão explícita. Compartilhamos o código e o conjunto de dados, juntamente com uma ferramenta exploratória para visualizar mapas de atenção em https://github.com/umilISLab/artistic-prompt-interpretation.
English
Text-to-image diffusion models have demonstrated remarkable capabilities in generating artistic content by learning from billions of images, including popular artworks. However, the fundamental question of how these models internally represent concepts, such as content and style in paintings, remains unexplored. Traditional computer vision assumes content and style are orthogonal, but diffusion models receive no explicit guidance about this distinction during training. In this work, we investigate how transformer-based text-to-image diffusion models encode content and style concepts when generating artworks. We leverage cross-attention heatmaps to attribute pixels in generated images to specific prompt tokens, enabling us to isolate image regions influenced by content-describing versus style-describing tokens. Our findings reveal that diffusion models demonstrate varying degrees of content-style separation depending on the specific artistic prompt and style requested. In many cases, content tokens primarily influence object-related regions while style tokens affect background and texture areas, suggesting an emergent understanding of the content-style distinction. These insights contribute to our understanding of how large-scale generative models internally represent complex artistic concepts without explicit supervision. We share the code and dataset, together with an exploratory tool for visualizing attention maps at https://github.com/umilISLab/artistic-prompt-interpretation.
PDF12August 7, 2025