ChatPaper.aiChatPaper

WavJourney : Création audio compositionnelle avec des modèles de langage à grande échelle

WavJourney: Compositional Audio Creation with Large Language Models

July 26, 2023
Auteurs: Xubo Liu, Zhongkai Zhu, Haohe Liu, Yi Yuan, Meng Cui, Qiushi Huang, Jinhua Liang, Yin Cao, Qiuqiang Kong, Mark D. Plumbley, Wenwu Wang
cs.AI

Résumé

Les modèles de langage de grande taille (LLMs) ont démontré un grand potentiel dans l'intégration de modèles experts diversifiés pour aborder des tâches complexes en langage et vision. Malgré leur importance dans l'avancement du domaine du contenu généré par intelligence artificielle (AIGC), leur potentiel dans la création intelligente de contenu audio reste inexploré. Dans ce travail, nous abordons le problème de la création de contenu audio avec des scénarios englobant la parole, la musique et les effets sonores, guidés par des instructions textuelles. Nous présentons WavJourney, un système qui exploite les LLMs pour connecter divers modèles audio afin de générer du contenu audio. Étant donné une description textuelle d'une scène auditive, WavJourney invite d'abord les LLMs à générer un script structuré dédié à la narration audio. Le script audio intègre divers éléments audio, organisés en fonction de leurs relations spatio-temporelles. En tant que représentation conceptuelle de l'audio, le script audio fournit une justification interactive et interprétable pour l'engagement humain. Ensuite, le script audio est introduit dans un compilateur de script, le convertissant en un programme informatique. Chaque ligne du programme appelle un modèle de génération audio spécifique à une tâche ou une fonction d'opération computationnelle (par exemple, concaténer, mixer). Le programme informatique est ensuite exécuté pour obtenir une solution explicable pour la génération audio. Nous démontrons la praticabilité de WavJourney dans divers scénarios réels, incluant la science-fiction, l'éducation et le théâtre radiophonique. La conception explicable et interactive de WavJourney favorise la co-création homme-machine dans des dialogues multi-tours, améliorant le contrôle créatif et l'adaptabilité dans la production audio. WavJourney audio-lise l'imagination humaine, ouvrant de nouvelles voies pour la créativité dans la création de contenu multimédia.
English
Large Language Models (LLMs) have shown great promise in integrating diverse expert models to tackle intricate language and vision tasks. Despite their significance in advancing the field of Artificial Intelligence Generated Content (AIGC), their potential in intelligent audio content creation remains unexplored. In this work, we tackle the problem of creating audio content with storylines encompassing speech, music, and sound effects, guided by text instructions. We present WavJourney, a system that leverages LLMs to connect various audio models for audio content generation. Given a text description of an auditory scene, WavJourney first prompts LLMs to generate a structured script dedicated to audio storytelling. The audio script incorporates diverse audio elements, organized based on their spatio-temporal relationships. As a conceptual representation of audio, the audio script provides an interactive and interpretable rationale for human engagement. Afterward, the audio script is fed into a script compiler, converting it into a computer program. Each line of the program calls a task-specific audio generation model or computational operation function (e.g., concatenate, mix). The computer program is then executed to obtain an explainable solution for audio generation. We demonstrate the practicality of WavJourney across diverse real-world scenarios, including science fiction, education, and radio play. The explainable and interactive design of WavJourney fosters human-machine co-creation in multi-round dialogues, enhancing creative control and adaptability in audio production. WavJourney audiolizes the human imagination, opening up new avenues for creativity in multimedia content creation.
PDF441December 15, 2024