Uma Sinfonia Multimodal: Integrando Sabor e Som por meio de IA Generativa
A Multimodal Symphony: Integrating Taste and Sound through Generative AI
March 4, 2025
Autores: Matteo Spanio, Massimiliano Zampini, Antonio Rodà, Franco Pierucci
cs.AI
Resumo
Nas últimas décadas, pesquisas neurocientíficas e psicológicas têm traçado relações diretas entre percepções gustativas e auditivas. Este artigo explora modelos generativos multimodais capazes de converter informações gustativas em música, com base nessas pesquisas fundamentais. Apresentamos uma breve revisão do estado da arte nesse campo, destacando descobertas e metodologias-chave. Descrevemos um experimento no qual uma versão ajustada de um modelo generativo de música (MusicGEN) é utilizada para gerar música com base em descrições detalhadas de sabor fornecidas para cada peça musical. Os resultados são promissores: de acordo com a avaliação dos participantes (n=111), o modelo ajustado produz músicas que refletem de forma mais coerente as descrições de sabor fornecidas, em comparação com o modelo não ajustado. Este estudo representa um passo significativo para compreender e desenvolver interações incorporadas entre IA, som e sabor, abrindo novas possibilidades no campo da IA generativa. Disponibilizamos nosso conjunto de dados, código e modelo pré-treinado em: https://osf.io/xs5jy/.
English
In recent decades, neuroscientific and psychological research has traced
direct relationships between taste and auditory perceptions. This article
explores multimodal generative models capable of converting taste information
into music, building on this foundational research. We provide a brief review
of the state of the art in this field, highlighting key findings and
methodologies. We present an experiment in which a fine-tuned version of a
generative music model (MusicGEN) is used to generate music based on detailed
taste descriptions provided for each musical piece. The results are promising:
according the participants' (n=111) evaluation, the fine-tuned model produces
music that more coherently reflects the input taste descriptions compared to
the non-fine-tuned model. This study represents a significant step towards
understanding and developing embodied interactions between AI, sound, and
taste, opening new possibilities in the field of generative AI. We release our
dataset, code and pre-trained model at: https://osf.io/xs5jy/.Summary
AI-Generated Summary