렘브란트의 소 - 텍스트-이미지 모델의 예술적 프롬프트 해석 분석
The Cow of Rembrandt - Analyzing Artistic Prompt Interpretation in Text-to-Image Models
July 31, 2025
저자: Alfio Ferrara, Sergio Picascia, Elisabetta Rocchetti
cs.AI
초록
텍스트-이미지 확산 모델은 수십억 장의 이미지, 특히 유명 예술 작품들을 학습함으로써 예술적 콘텐츠를 생성하는 데 있어 놀라운 능력을 보여주었습니다. 그러나 이러한 모델들이 내부적으로 그림의 내용(content)과 스타일(style)과 같은 개념을 어떻게 표현하는지에 대한 근본적인 질문은 아직 탐구되지 않았습니다. 전통적인 컴퓨터 비전에서는 내용과 스타일이 서로 독립적이라고 가정하지만, 확산 모델은 훈련 중에 이러한 구분에 대한 명시적인 지침을 받지 않습니다. 본 연구에서는 트랜스포머 기반 텍스트-이미지 확산 모델이 예술 작품을 생성할 때 내용과 스타일 개념을 어떻게 인코딩하는지 조사합니다. 우리는 크로스-어텐션 히트맵을 활용하여 생성된 이미지의 픽셀을 특정 프롬프트 토큰에 귀속시킴으로써, 내용을 설명하는 토큰과 스타일을 설명하는 토큰이 영향을 미치는 이미지 영역을 분리할 수 있었습니다. 연구 결과에 따르면, 확산 모델은 요청된 특정 예술적 프롬프트와 스타일에 따라 다양한 정도의 내용-스타일 분리를 보여줍니다. 많은 경우, 내용 토큰은 주로 객체 관련 영역에 영향을 미치는 반면, 스타일 토큰은 배경과 텍스처 영역에 영향을 미치며, 이는 내용과 스타일의 구분에 대한 내재적 이해를 시사합니다. 이러한 통찰은 대규모 생성 모델이 명시적인 지도 없이도 복잡한 예술적 개념을 내부적으로 어떻게 표현하는지에 대한 이해를 돕습니다. 우리는 코드와 데이터셋, 그리고 어텐션 맵을 시각화하기 위한 탐색 도구를 https://github.com/umilISLab/artistic-prompt-interpretation에서 공유합니다.
English
Text-to-image diffusion models have demonstrated remarkable capabilities in
generating artistic content by learning from billions of images, including
popular artworks. However, the fundamental question of how these models
internally represent concepts, such as content and style in paintings, remains
unexplored. Traditional computer vision assumes content and style are
orthogonal, but diffusion models receive no explicit guidance about this
distinction during training. In this work, we investigate how transformer-based
text-to-image diffusion models encode content and style concepts when
generating artworks. We leverage cross-attention heatmaps to attribute pixels
in generated images to specific prompt tokens, enabling us to isolate image
regions influenced by content-describing versus style-describing tokens. Our
findings reveal that diffusion models demonstrate varying degrees of
content-style separation depending on the specific artistic prompt and style
requested. In many cases, content tokens primarily influence object-related
regions while style tokens affect background and texture areas, suggesting an
emergent understanding of the content-style distinction. These insights
contribute to our understanding of how large-scale generative models internally
represent complex artistic concepts without explicit supervision. We share the
code and dataset, together with an exploratory tool for visualizing attention
maps at https://github.com/umilISLab/artistic-prompt-interpretation.