WavJourney: Compositionele Audiocreatie met Grote Taalmodellen
WavJourney: Compositional Audio Creation with Large Language Models
July 26, 2023
Auteurs: Xubo Liu, Zhongkai Zhu, Haohe Liu, Yi Yuan, Meng Cui, Qiushi Huang, Jinhua Liang, Yin Cao, Qiuqiang Kong, Mark D. Plumbley, Wenwu Wang
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben veelbelovende resultaten getoond in het integreren van diverse expertmodellen om complexe taal- en visietaken aan te pakken. Ondanks hun belang in de vooruitgang van het veld van Kunstmatige Intelligentie-gegenereerde Inhoud (AIGC), blijft hun potentieel in het creëren van intelligente audio-inhoud onontgonnen. In dit werk pakken we het probleem aan van het creëren van audio-inhoud met verhaallijnen die spraak, muziek en geluidseffecten omvatten, geleid door tekstinstructies. We presenteren WavJourney, een systeem dat gebruikmaakt van LLMs om verschillende audiomodellen met elkaar te verbinden voor het genereren van audio-inhoud. Gegeven een tekstbeschrijving van een auditieve scène, vraagt WavJourney eerst LLMs om een gestructureerd script te genereren dat gewijd is aan audio-verhalenvertelling. Het audioscript bevat diverse audio-elementen, georganiseerd op basis van hun ruimtelijk-temporele relaties. Als een conceptuele representatie van audio biedt het audioscript een interactieve en interpreteerbare redenering voor menselijke betrokkenheid. Vervolgens wordt het audioscript ingevoerd in een scriptcompiler, die het omzet in een computerprogramma. Elke regel van het programma roept een taakspecifiek audiogeneratiemodel of een rekenkundige bewerkingsfunctie aan (bijvoorbeeld samenvoegen, mixen). Het computerprogramma wordt vervolgens uitgevoerd om een verklaarbare oplossing voor audiogeneratie te verkrijgen. We demonstreren de praktische toepasbaarheid van WavJourney in diverse real-world scenario's, waaronder science fiction, onderwijs en hoorspelen. Het verklaarbare en interactieve ontwerp van WavJourney bevordert mens-machine co-creatie in meerdere dialoogrondes, wat de creatieve controle en aanpasbaarheid in audioproductie versterkt. WavJourney vertaalt de menselijke verbeelding naar audio, wat nieuwe mogelijkheden opent voor creativiteit in multimediale inhoudscreatie.
English
Large Language Models (LLMs) have shown great promise in integrating diverse
expert models to tackle intricate language and vision tasks. Despite their
significance in advancing the field of Artificial Intelligence Generated
Content (AIGC), their potential in intelligent audio content creation remains
unexplored. In this work, we tackle the problem of creating audio content with
storylines encompassing speech, music, and sound effects, guided by text
instructions. We present WavJourney, a system that leverages LLMs to connect
various audio models for audio content generation. Given a text description of
an auditory scene, WavJourney first prompts LLMs to generate a structured
script dedicated to audio storytelling. The audio script incorporates diverse
audio elements, organized based on their spatio-temporal relationships. As a
conceptual representation of audio, the audio script provides an interactive
and interpretable rationale for human engagement. Afterward, the audio script
is fed into a script compiler, converting it into a computer program. Each line
of the program calls a task-specific audio generation model or computational
operation function (e.g., concatenate, mix). The computer program is then
executed to obtain an explainable solution for audio generation. We demonstrate
the practicality of WavJourney across diverse real-world scenarios, including
science fiction, education, and radio play. The explainable and interactive
design of WavJourney fosters human-machine co-creation in multi-round
dialogues, enhancing creative control and adaptability in audio production.
WavJourney audiolizes the human imagination, opening up new avenues for
creativity in multimedia content creation.