Корова Рембрандта — анализ интерпретации художественных запросов в моделях генерации изображений по тексту.

Аннотация

Модели диффузии для генерации изображений по тексту продемонстрировали впечатляющие способности в создании художественного контента, обучаясь на миллиардах изображений, включая популярные произведения искусства. Однако фундаментальный вопрос о том, как эти модели внутренне представляют концепции, такие как содержание и стиль в картинах, остается неисследованным. Традиционная компьютерная зрение предполагает, что содержание и стиль ортогональны, но модели диффузии не получают явного указания на это различие в процессе обучения. В данной работе мы исследуем, как трансформерные модели генерации изображений по тексту кодируют концепции содержания и стиля при создании художественных произведений. Мы используем тепловые карты кросс-внимания для атрибуции пикселей в сгенерированных изображениях к конкретным токенам запроса, что позволяет нам выделить области изображения, на которые влияют токены, описывающие содержание, и токены, описывающие стиль. Наши результаты показывают, что модели диффузии демонстрируют различную степень разделения содержания и стиля в зависимости от конкретного художественного запроса и запрашиваемого стиля. Во многих случаях токены содержания в основном влияют на области, связанные с объектами, а токены стиля воздействуют на фон и текстуры, что указывает на возникающее понимание различия между содержанием и стилем. Эти наблюдения способствуют нашему пониманию того, как крупномасштабные генеративные модели внутренне представляют сложные художественные концепции без явного контроля. Мы делимся кодом и набором данных, а также исследовательским инструментом для визуализации карт внимания на https://github.com/umilISLab/artistic-prompt-interpretation.

English

Text-to-image diffusion models have demonstrated remarkable capabilities in generating artistic content by learning from billions of images, including popular artworks. However, the fundamental question of how these models internally represent concepts, such as content and style in paintings, remains unexplored. Traditional computer vision assumes content and style are orthogonal, but diffusion models receive no explicit guidance about this distinction during training. In this work, we investigate how transformer-based text-to-image diffusion models encode content and style concepts when generating artworks. We leverage cross-attention heatmaps to attribute pixels in generated images to specific prompt tokens, enabling us to isolate image regions influenced by content-describing versus style-describing tokens. Our findings reveal that diffusion models demonstrate varying degrees of content-style separation depending on the specific artistic prompt and style requested. In many cases, content tokens primarily influence object-related regions while style tokens affect background and texture areas, suggesting an emergent understanding of the content-style distinction. These insights contribute to our understanding of how large-scale generative models internally represent complex artistic concepts without explicit supervision. We share the code and dataset, together with an exploratory tool for visualizing attention maps at https://github.com/umilISLab/artistic-prompt-interpretation.

Корова Рембрандта — анализ интерпретации художественных запросов в моделях генерации изображений по тексту.

The Cow of Rembrandt - Analyzing Artistic Prompt Interpretation in Text-to-Image Models

Аннотация

Support