MPJudge: 음악 유도 그림의 지각적 평가를 향하여
MPJudge: Towards Perceptual Assessment of Music-Induced Paintings
November 10, 2025
저자: Shiqi Jiang, Tianyi Liang, Changbo Wang, Chenhui Li
cs.AI
초록
음악 유도 회화는 음악의 영향을 받아 시각 예술 작품을 창작하는 독특한 예술 실천이다. 영감을 준 음악을 회화가 충실히 반영하고 있는지 평가하는 것은 난해한 지각적 평가 과제를 제기한다. 기존 방법론은 주로 음악과 회화 간 유사성을 평가하기 위해 감정 인식 모델에 의존하지만, 이러한 모델은 상당한 노이즈를 유입하며 감정 이상의 포괄적 지각 단서를 간과한다. 이러한 한계를 해결하기 위해, 본 연구는 음악과 시각 예술 간 지각적 일관성을 직접 모델링하는 새로운 음악 유도 회화 평가 프레임워크를 제안한다. 우리는 분야 전문가가 지각적 일관성을 기준으로 주석을 단 최초의 대규모 음악-회화 쌍 데이터셋인 MPD를 소개한다. 모호한 사례를 더 효과적으로 처리하기 위해 pairwise 선호도 주석을 추가로 수집하였다. 이 데이터셋을 기반으로, 변조 기반 융합 메커니즘을 통해 음악 특징을 시각 인코더에 통합하는 MPJudge 모델을 제시한다. 모호한 사례에서의 효과적 학습을 위해 Direct Preference Optimization을 훈련에 채택하였다. 폭넓은 실험을 통해 우리 방법론이 기존 접근법을 능가함을 입증한다. 정성적 결과는 further 우리 모델이 회화에서 음악 관련 영역을 더 정확하게 식별함을 보여준다.
English
Music induced painting is a unique artistic practice, where visual artworks
are created under the influence of music. Evaluating whether a painting
faithfully reflects the music that inspired it poses a challenging perceptual
assessment task. Existing methods primarily rely on emotion recognition models
to assess the similarity between music and painting, but such models introduce
considerable noise and overlook broader perceptual cues beyond emotion. To
address these limitations, we propose a novel framework for music induced
painting assessment that directly models perceptual coherence between music and
visual art. We introduce MPD, the first large scale dataset of music painting
pairs annotated by domain experts based on perceptual coherence. To better
handle ambiguous cases, we further collect pairwise preference annotations.
Building on this dataset, we present MPJudge, a model that integrates music
features into a visual encoder via a modulation based fusion mechanism. To
effectively learn from ambiguous cases, we adopt Direct Preference Optimization
for training. Extensive experiments demonstrate that our method outperforms
existing approaches. Qualitative results further show that our model more
accurately identifies music relevant regions in paintings.