WavJourney: Creación composicional de audio con modelos de lenguaje a gran escala
WavJourney: Compositional Audio Creation with Large Language Models
July 26, 2023
Autores: Xubo Liu, Zhongkai Zhu, Haohe Liu, Yi Yuan, Meng Cui, Qiushi Huang, Jinhua Liang, Yin Cao, Qiuqiang Kong, Mark D. Plumbley, Wenwu Wang
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado un gran potencial para integrar diversos modelos expertos con el fin de abordar tareas complejas en lenguaje y visión. A pesar de su importancia en el avance del campo de la Generación de Contenido mediante Inteligencia Artificial (AIGC, por sus siglas en inglés), su potencial en la creación inteligente de contenido de audio sigue sin explorarse. En este trabajo, abordamos el problema de crear contenido de audio con narrativas que incluyen voz, música y efectos de sonido, guiados por instrucciones de texto. Presentamos WavJourney, un sistema que aprovecha los LLMs para conectar diversos modelos de audio en la generación de contenido sonoro. Dada una descripción textual de una escena auditiva, WavJourney primero solicita a los LLMs que generen un guion estructurado dedicado a la narración de audio. Este guion incorpora diversos elementos de audio, organizados en función de sus relaciones espacio-temporales. Como representación conceptual del audio, el guion proporciona una justificación interactiva e interpretable para la participación humana. Posteriormente, el guion se introduce en un compilador de guiones, que lo convierte en un programa informático. Cada línea del programa llama a un modelo específico de generación de audio o a una función de operación computacional (por ejemplo, concatenar, mezclar). El programa informático se ejecuta para obtener una solución explicable para la generación de audio. Demostramos la practicidad de WavJourney en diversos escenarios del mundo real, incluyendo ciencia ficción, educación y radionovelas. El diseño explicable e interactivo de WavJourney fomenta la co-creación humano-máquina en diálogos de múltiples rondas, mejorando el control creativo y la adaptabilidad en la producción de audio. WavJourney audioliza la imaginación humana, abriendo nuevas vías para la creatividad en la creación de contenido multimedia.
English
Large Language Models (LLMs) have shown great promise in integrating diverse
expert models to tackle intricate language and vision tasks. Despite their
significance in advancing the field of Artificial Intelligence Generated
Content (AIGC), their potential in intelligent audio content creation remains
unexplored. In this work, we tackle the problem of creating audio content with
storylines encompassing speech, music, and sound effects, guided by text
instructions. We present WavJourney, a system that leverages LLMs to connect
various audio models for audio content generation. Given a text description of
an auditory scene, WavJourney first prompts LLMs to generate a structured
script dedicated to audio storytelling. The audio script incorporates diverse
audio elements, organized based on their spatio-temporal relationships. As a
conceptual representation of audio, the audio script provides an interactive
and interpretable rationale for human engagement. Afterward, the audio script
is fed into a script compiler, converting it into a computer program. Each line
of the program calls a task-specific audio generation model or computational
operation function (e.g., concatenate, mix). The computer program is then
executed to obtain an explainable solution for audio generation. We demonstrate
the practicality of WavJourney across diverse real-world scenarios, including
science fiction, education, and radio play. The explainable and interactive
design of WavJourney fosters human-machine co-creation in multi-round
dialogues, enhancing creative control and adaptability in audio production.
WavJourney audiolizes the human imagination, opening up new avenues for
creativity in multimedia content creation.