Корова Рембрандта — анализ интерпретации художественных запросов в моделях генерации изображений по тексту.
The Cow of Rembrandt - Analyzing Artistic Prompt Interpretation in Text-to-Image Models
July 31, 2025
Авторы: Alfio Ferrara, Sergio Picascia, Elisabetta Rocchetti
cs.AI
Аннотация
Модели диффузии для генерации изображений по тексту продемонстрировали впечатляющие способности в создании художественного контента, обучаясь на миллиардах изображений, включая популярные произведения искусства. Однако фундаментальный вопрос о том, как эти модели внутренне представляют концепции, такие как содержание и стиль в картинах, остается неисследованным. Традиционная компьютерная зрение предполагает, что содержание и стиль ортогональны, но модели диффузии не получают явного указания на это различие в процессе обучения. В данной работе мы исследуем, как трансформерные модели генерации изображений по тексту кодируют концепции содержания и стиля при создании художественных произведений. Мы используем тепловые карты кросс-внимания для атрибуции пикселей в сгенерированных изображениях к конкретным токенам запроса, что позволяет нам выделить области изображения, на которые влияют токены, описывающие содержание, и токены, описывающие стиль. Наши результаты показывают, что модели диффузии демонстрируют различную степень разделения содержания и стиля в зависимости от конкретного художественного запроса и запрашиваемого стиля. Во многих случаях токены содержания в основном влияют на области, связанные с объектами, а токены стиля воздействуют на фон и текстуры, что указывает на возникающее понимание различия между содержанием и стилем. Эти наблюдения способствуют нашему пониманию того, как крупномасштабные генеративные модели внутренне представляют сложные художественные концепции без явного контроля. Мы делимся кодом и набором данных, а также исследовательским инструментом для визуализации карт внимания на https://github.com/umilISLab/artistic-prompt-interpretation.
English
Text-to-image diffusion models have demonstrated remarkable capabilities in
generating artistic content by learning from billions of images, including
popular artworks. However, the fundamental question of how these models
internally represent concepts, such as content and style in paintings, remains
unexplored. Traditional computer vision assumes content and style are
orthogonal, but diffusion models receive no explicit guidance about this
distinction during training. In this work, we investigate how transformer-based
text-to-image diffusion models encode content and style concepts when
generating artworks. We leverage cross-attention heatmaps to attribute pixels
in generated images to specific prompt tokens, enabling us to isolate image
regions influenced by content-describing versus style-describing tokens. Our
findings reveal that diffusion models demonstrate varying degrees of
content-style separation depending on the specific artistic prompt and style
requested. In many cases, content tokens primarily influence object-related
regions while style tokens affect background and texture areas, suggesting an
emergent understanding of the content-style distinction. These insights
contribute to our understanding of how large-scale generative models internally
represent complex artistic concepts without explicit supervision. We share the
code and dataset, together with an exploratory tool for visualizing attention
maps at https://github.com/umilISLab/artistic-prompt-interpretation.