Una Sinfonia Multimodale: Integrare Gusto e Suono attraverso l'Intelligenza Artificiale Generativa
A Multimodal Symphony: Integrating Taste and Sound through Generative AI
March 4, 2025
Autori: Matteo Spanio, Massimiliano Zampini, Antonio Rodà, Franco Pierucci
cs.AI
Abstract
Negli ultimi decenni, la ricerca neuroscientifica e psicologica ha tracciato relazioni dirette tra percezioni gustative e uditive. Questo articolo esplora modelli generativi multimodali in grado di convertire informazioni gustative in musica, basandosi su queste ricerche fondamentali. Forniamo una breve rassegna dello stato dell'arte in questo campo, evidenziando i risultati chiave e le metodologie principali. Presentiamo un esperimento in cui una versione ottimizzata di un modello generativo musicale (MusicGEN) viene utilizzata per generare musica basandosi su descrizioni gustative dettagliate fornite per ogni brano musicale. I risultati sono promettenti: secondo la valutazione dei partecipanti (n=111), il modello ottimizzato produce musica che riflette in modo più coerente le descrizioni gustative in ingresso rispetto al modello non ottimizzato. Questo studio rappresenta un passo significativo verso la comprensione e lo sviluppo di interazioni incarnate tra IA, suono e gusto, aprendo nuove possibilità nel campo dell'IA generativa. Rilasciamo il nostro dataset, codice e modello pre-addestrato all'indirizzo: https://osf.io/xs5jy/.
English
In recent decades, neuroscientific and psychological research has traced
direct relationships between taste and auditory perceptions. This article
explores multimodal generative models capable of converting taste information
into music, building on this foundational research. We provide a brief review
of the state of the art in this field, highlighting key findings and
methodologies. We present an experiment in which a fine-tuned version of a
generative music model (MusicGEN) is used to generate music based on detailed
taste descriptions provided for each musical piece. The results are promising:
according the participants' (n=111) evaluation, the fine-tuned model produces
music that more coherently reflects the input taste descriptions compared to
the non-fine-tuned model. This study represents a significant step towards
understanding and developing embodied interactions between AI, sound, and
taste, opening new possibilities in the field of generative AI. We release our
dataset, code and pre-trained model at: https://osf.io/xs5jy/.Summary
AI-Generated Summary