Eine multimodale Symphonie: Integration von Geschmack und Klang durch generative KI
A Multimodal Symphony: Integrating Taste and Sound through Generative AI
March 4, 2025
Autoren: Matteo Spanio, Massimiliano Zampini, Antonio Rodà, Franco Pierucci
cs.AI
Zusammenfassung
In den letzten Jahrzehnten haben neurowissenschaftliche und psychologische Forschungen direkte Zusammenhänge zwischen Geschmack und auditiver Wahrnehmung aufgezeigt. Dieser Artikel untersucht multimodale generative Modelle, die auf dieser Grundlagenforschung aufbauen und in der Lage sind, Geschmacksinformationen in Musik umzuwandeln. Wir bieten einen kurzen Überblick über den Stand der Technik in diesem Bereich und heben wichtige Erkenntnisse und Methoden hervor. Wir präsentieren ein Experiment, in dem eine feinabgestimmte Version eines generativen Musikmodells (MusicGEN) verwendet wird, um Musik basierend auf detaillierten Geschmacksbeschreibungen zu erzeugen, die für jedes Musikstück bereitgestellt wurden. Die Ergebnisse sind vielversprechend: Laut der Bewertung der Teilnehmer (n=111) produziert das feinabgestimmte Modell Musik, die die eingegebenen Geschmacksbeschreibungen kohärenter widerspiegelt als das nicht feinabgestimmte Modell. Diese Studie stellt einen bedeutenden Schritt zum Verständnis und zur Entwicklung verkörperter Interaktionen zwischen KI, Klang und Geschmack dar und eröffnet neue Möglichkeiten im Bereich der generativen KI. Wir veröffentlichen unseren Datensatz, Code und das vortrainierte Modell unter: https://osf.io/xs5jy/.
English
In recent decades, neuroscientific and psychological research has traced
direct relationships between taste and auditory perceptions. This article
explores multimodal generative models capable of converting taste information
into music, building on this foundational research. We provide a brief review
of the state of the art in this field, highlighting key findings and
methodologies. We present an experiment in which a fine-tuned version of a
generative music model (MusicGEN) is used to generate music based on detailed
taste descriptions provided for each musical piece. The results are promising:
according the participants' (n=111) evaluation, the fine-tuned model produces
music that more coherently reflects the input taste descriptions compared to
the non-fine-tuned model. This study represents a significant step towards
understanding and developing embodied interactions between AI, sound, and
taste, opening new possibilities in the field of generative AI. We release our
dataset, code and pre-trained model at: https://osf.io/xs5jy/.Summary
AI-Generated Summary