WavJourney : Création audio compositionnelle avec des modèles de langage à grande échelle
WavJourney: Compositional Audio Creation with Large Language Models
July 26, 2023
Auteurs: Xubo Liu, Zhongkai Zhu, Haohe Liu, Yi Yuan, Meng Cui, Qiushi Huang, Jinhua Liang, Yin Cao, Qiuqiang Kong, Mark D. Plumbley, Wenwu Wang
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) ont démontré un grand potentiel dans l'intégration de modèles experts diversifiés pour aborder des tâches complexes en langage et vision. Malgré leur importance dans l'avancement du domaine du contenu généré par intelligence artificielle (AIGC), leur potentiel dans la création intelligente de contenu audio reste inexploré. Dans ce travail, nous abordons le problème de la création de contenu audio avec des scénarios englobant la parole, la musique et les effets sonores, guidés par des instructions textuelles. Nous présentons WavJourney, un système qui exploite les LLMs pour connecter divers modèles audio afin de générer du contenu audio. Étant donné une description textuelle d'une scène auditive, WavJourney invite d'abord les LLMs à générer un script structuré dédié à la narration audio. Le script audio intègre divers éléments audio, organisés en fonction de leurs relations spatio-temporelles. En tant que représentation conceptuelle de l'audio, le script audio fournit une justification interactive et interprétable pour l'engagement humain. Ensuite, le script audio est introduit dans un compilateur de script, le convertissant en un programme informatique. Chaque ligne du programme appelle un modèle de génération audio spécifique à une tâche ou une fonction d'opération computationnelle (par exemple, concaténer, mixer). Le programme informatique est ensuite exécuté pour obtenir une solution explicable pour la génération audio. Nous démontrons la praticabilité de WavJourney dans divers scénarios réels, incluant la science-fiction, l'éducation et le théâtre radiophonique. La conception explicable et interactive de WavJourney favorise la co-création homme-machine dans des dialogues multi-tours, améliorant le contrôle créatif et l'adaptabilité dans la production audio. WavJourney audio-lise l'imagination humaine, ouvrant de nouvelles voies pour la créativité dans la création de contenu multimédia.
English
Large Language Models (LLMs) have shown great promise in integrating diverse
expert models to tackle intricate language and vision tasks. Despite their
significance in advancing the field of Artificial Intelligence Generated
Content (AIGC), their potential in intelligent audio content creation remains
unexplored. In this work, we tackle the problem of creating audio content with
storylines encompassing speech, music, and sound effects, guided by text
instructions. We present WavJourney, a system that leverages LLMs to connect
various audio models for audio content generation. Given a text description of
an auditory scene, WavJourney first prompts LLMs to generate a structured
script dedicated to audio storytelling. The audio script incorporates diverse
audio elements, organized based on their spatio-temporal relationships. As a
conceptual representation of audio, the audio script provides an interactive
and interpretable rationale for human engagement. Afterward, the audio script
is fed into a script compiler, converting it into a computer program. Each line
of the program calls a task-specific audio generation model or computational
operation function (e.g., concatenate, mix). The computer program is then
executed to obtain an explainable solution for audio generation. We demonstrate
the practicality of WavJourney across diverse real-world scenarios, including
science fiction, education, and radio play. The explainable and interactive
design of WavJourney fosters human-machine co-creation in multi-round
dialogues, enhancing creative control and adaptability in audio production.
WavJourney audiolizes the human imagination, opening up new avenues for
creativity in multimedia content creation.