Een Multimodale Symfonie: Integratie van Smaak en Geluid via Generatieve AI
A Multimodal Symphony: Integrating Taste and Sound through Generative AI
March 4, 2025
Auteurs: Matteo Spanio, Massimiliano Zampini, Antonio Rodà, Franco Pierucci
cs.AI
Samenvatting
In de afgelopen decennia heeft neurowetenschappelijk en psychologisch onderzoek directe verbanden blootgelegd tussen smaak en auditieve waarnemingen. Dit artikel verkent multimodale generatieve modellen die in staat zijn smaakinformatie om te zetten in muziek, voortbouwend op dit fundamentele onderzoek. We bieden een kort overzicht van de stand van de techniek op dit gebied, waarbij we belangrijke bevindingen en methodologieën belichten. We presenteren een experiment waarin een fijn afgestelde versie van een generatief muziekmodel (MusicGEN) wordt gebruikt om muziek te genereren op basis van gedetailleerde smaakbeschrijvingen die voor elk muziekstuk zijn verstrekt. De resultaten zijn veelbelovend: volgens de evaluatie van de deelnemers (n=111) produceert het fijn afgestelde model muziek die de ingevoerde smaakbeschrijvingen coherenter weerspiegelt in vergelijking met het niet fijn afgestelde model. Deze studie vertegenwoordigt een belangrijke stap in het begrijpen en ontwikkelen van belichaamde interacties tussen AI, geluid en smaak, en opent nieuwe mogelijkheden op het gebied van generatieve AI. We maken onze dataset, code en vooraf getrainde model beschikbaar op: https://osf.io/xs5jy/.
English
In recent decades, neuroscientific and psychological research has traced
direct relationships between taste and auditory perceptions. This article
explores multimodal generative models capable of converting taste information
into music, building on this foundational research. We provide a brief review
of the state of the art in this field, highlighting key findings and
methodologies. We present an experiment in which a fine-tuned version of a
generative music model (MusicGEN) is used to generate music based on detailed
taste descriptions provided for each musical piece. The results are promising:
according the participants' (n=111) evaluation, the fine-tuned model produces
music that more coherently reflects the input taste descriptions compared to
the non-fine-tuned model. This study represents a significant step towards
understanding and developing embodied interactions between AI, sound, and
taste, opening new possibilities in the field of generative AI. We release our
dataset, code and pre-trained model at: https://osf.io/xs5jy/.Summary
AI-Generated Summary