Una sinfonía multimodal: Integrando el gusto y el sonido mediante IA generativa
A Multimodal Symphony: Integrating Taste and Sound through Generative AI
March 4, 2025
Autores: Matteo Spanio, Massimiliano Zampini, Antonio Rodà, Franco Pierucci
cs.AI
Resumen
En las últimas décadas, la investigación neurocientífica y psicológica ha trazado relaciones directas entre el gusto y las percepciones auditivas. Este artículo explora modelos generativos multimodales capaces de convertir información gustativa en música, basándose en esta investigación fundamental. Ofrecemos una breve revisión del estado del arte en este campo, destacando hallazgos clave y metodologías. Presentamos un experimento en el que se utiliza una versión ajustada de un modelo generativo de música (MusicGEN) para generar música basada en descripciones detalladas del gusto proporcionadas para cada pieza musical. Los resultados son prometedores: según la evaluación de los participantes (n=111), el modelo ajustado produce música que refleja de manera más coherente las descripciones gustativas de entrada en comparación con el modelo no ajustado. Este estudio representa un paso significativo hacia la comprensión y el desarrollo de interacciones encarnadas entre la IA, el sonido y el gusto, abriendo nuevas posibilidades en el campo de la IA generativa. Publicamos nuestro conjunto de datos, código y modelo preentrenado en: https://osf.io/xs5jy/.
English
In recent decades, neuroscientific and psychological research has traced
direct relationships between taste and auditory perceptions. This article
explores multimodal generative models capable of converting taste information
into music, building on this foundational research. We provide a brief review
of the state of the art in this field, highlighting key findings and
methodologies. We present an experiment in which a fine-tuned version of a
generative music model (MusicGEN) is used to generate music based on detailed
taste descriptions provided for each musical piece. The results are promising:
according the participants' (n=111) evaluation, the fine-tuned model produces
music that more coherently reflects the input taste descriptions compared to
the non-fine-tuned model. This study represents a significant step towards
understanding and developing embodied interactions between AI, sound, and
taste, opening new possibilities in the field of generative AI. We release our
dataset, code and pre-trained model at: https://osf.io/xs5jy/.Summary
AI-Generated Summary