Una sinfonía multimodal: Integrando el gusto y el sonido mediante IA generativa

Resumen

En las últimas décadas, la investigación neurocientífica y psicológica ha trazado relaciones directas entre el gusto y las percepciones auditivas. Este artículo explora modelos generativos multimodales capaces de convertir información gustativa en música, basándose en esta investigación fundamental. Ofrecemos una breve revisión del estado del arte en este campo, destacando hallazgos clave y metodologías. Presentamos un experimento en el que se utiliza una versión ajustada de un modelo generativo de música (MusicGEN) para generar música basada en descripciones detalladas del gusto proporcionadas para cada pieza musical. Los resultados son prometedores: según la evaluación de los participantes (n=111), el modelo ajustado produce música que refleja de manera más coherente las descripciones gustativas de entrada en comparación con el modelo no ajustado. Este estudio representa un paso significativo hacia la comprensión y el desarrollo de interacciones encarnadas entre la IA, el sonido y el gusto, abriendo nuevas posibilidades en el campo de la IA generativa. Publicamos nuestro conjunto de datos, código y modelo preentrenado en: https://osf.io/xs5jy/.

English

In recent decades, neuroscientific and psychological research has traced direct relationships between taste and auditory perceptions. This article explores multimodal generative models capable of converting taste information into music, building on this foundational research. We provide a brief review of the state of the art in this field, highlighting key findings and methodologies. We present an experiment in which a fine-tuned version of a generative music model (MusicGEN) is used to generate music based on detailed taste descriptions provided for each musical piece. The results are promising: according the participants' (n=111) evaluation, the fine-tuned model produces music that more coherently reflects the input taste descriptions compared to the non-fine-tuned model. This study represents a significant step towards understanding and developing embodied interactions between AI, sound, and taste, opening new possibilities in the field of generative AI. We release our dataset, code and pre-trained model at: https://osf.io/xs5jy/.

Una sinfonía multimodal: Integrando el gusto y el sonido mediante IA generativa

A Multimodal Symphony: Integrating Taste and Sound through Generative AI

Resumen

Support