다중모달 교향곡: 생성형 AI를 통한 맛과 소리의 통합
A Multimodal Symphony: Integrating Taste and Sound through Generative AI
March 4, 2025
저자: Matteo Spanio, Massimiliano Zampini, Antonio Rodà, Franco Pierucci
cs.AI
초록
최근 수십 년간 신경과학 및 심리학 연구는 미각과 청각 지각 사이의 직접적인 관계를 추적해 왔습니다. 본 논문은 이러한 기초 연구를 바탕으로 미각 정보를 음악으로 변환할 수 있는 다중모드 생성 모델을 탐구합니다. 우리는 이 분야의 최신 기술 동향을 간략히 검토하며 주요 발견과 방법론을 강조합니다. 또한, 각 음악 작품에 대해 제공된 상세한 미각 설명을 기반으로 음악을 생성하기 위해 미세 조정된 생성 음악 모델(MusicGEN)을 사용한 실험을 소개합니다. 실험 결과는 고무적입니다: 참가자(n=111)의 평가에 따르면, 미세 조정된 모델은 미세 조정되지 않은 모델에 비해 입력된 미각 설명을 더 일관성 있게 반영한 음악을 생성합니다. 이 연구는 AI, 소리, 그리고 미각 간의 체화된 상호작용을 이해하고 발전시키는 데 있어 중요한 진전을 나타내며, 생성 AI 분야에서 새로운 가능성을 열어줍니다. 우리는 데이터셋, 코드, 그리고 사전 훈련된 모델을 https://osf.io/xs5jy/에서 공개합니다.
English
In recent decades, neuroscientific and psychological research has traced
direct relationships between taste and auditory perceptions. This article
explores multimodal generative models capable of converting taste information
into music, building on this foundational research. We provide a brief review
of the state of the art in this field, highlighting key findings and
methodologies. We present an experiment in which a fine-tuned version of a
generative music model (MusicGEN) is used to generate music based on detailed
taste descriptions provided for each musical piece. The results are promising:
according the participants' (n=111) evaluation, the fine-tuned model produces
music that more coherently reflects the input taste descriptions compared to
the non-fine-tuned model. This study represents a significant step towards
understanding and developing embodied interactions between AI, sound, and
taste, opening new possibilities in the field of generative AI. We release our
dataset, code and pre-trained model at: https://osf.io/xs5jy/.