Eine multimodale Symphonie: Integration von Geschmack und Klang durch generative KI

papers.abstract

In den letzten Jahrzehnten haben neurowissenschaftliche und psychologische Forschungen direkte Zusammenhänge zwischen Geschmack und auditiver Wahrnehmung aufgezeigt. Dieser Artikel untersucht multimodale generative Modelle, die auf dieser Grundlagenforschung aufbauen und in der Lage sind, Geschmacksinformationen in Musik umzuwandeln. Wir bieten einen kurzen Überblick über den Stand der Technik in diesem Bereich und heben wichtige Erkenntnisse und Methoden hervor. Wir präsentieren ein Experiment, in dem eine feinabgestimmte Version eines generativen Musikmodells (MusicGEN) verwendet wird, um Musik basierend auf detaillierten Geschmacksbeschreibungen zu erzeugen, die für jedes Musikstück bereitgestellt wurden. Die Ergebnisse sind vielversprechend: Laut der Bewertung der Teilnehmer (n=111) produziert das feinabgestimmte Modell Musik, die die eingegebenen Geschmacksbeschreibungen kohärenter widerspiegelt als das nicht feinabgestimmte Modell. Diese Studie stellt einen bedeutenden Schritt zum Verständnis und zur Entwicklung verkörperter Interaktionen zwischen KI, Klang und Geschmack dar und eröffnet neue Möglichkeiten im Bereich der generativen KI. Wir veröffentlichen unseren Datensatz, Code und das vortrainierte Modell unter: https://osf.io/xs5jy/.

English

In recent decades, neuroscientific and psychological research has traced direct relationships between taste and auditory perceptions. This article explores multimodal generative models capable of converting taste information into music, building on this foundational research. We provide a brief review of the state of the art in this field, highlighting key findings and methodologies. We present an experiment in which a fine-tuned version of a generative music model (MusicGEN) is used to generate music based on detailed taste descriptions provided for each musical piece. The results are promising: according the participants' (n=111) evaluation, the fine-tuned model produces music that more coherently reflects the input taste descriptions compared to the non-fine-tuned model. This study represents a significant step towards understanding and developing embodied interactions between AI, sound, and taste, opening new possibilities in the field of generative AI. We release our dataset, code and pre-trained model at: https://osf.io/xs5jy/.

Eine multimodale Symphonie: Integration von Geschmack und Klang durch generative KI

A Multimodal Symphony: Integrating Taste and Sound through Generative AI

papers.abstract

Support