WavJourney: Creazione Composizionale di Audio con Modelli Linguistici di Grande Scala
WavJourney: Compositional Audio Creation with Large Language Models
July 26, 2023
Autori: Xubo Liu, Zhongkai Zhu, Haohe Liu, Yi Yuan, Meng Cui, Qiushi Huang, Jinhua Liang, Yin Cao, Qiuqiang Kong, Mark D. Plumbley, Wenwu Wang
cs.AI
Abstract
I Large Language Model (LLM) hanno dimostrato un grande potenziale nell'integrare modelli esperti diversi per affrontare complessi compiti linguistici e visivi. Nonostante la loro importanza nel far progredire il campo dei Contenuti Generati dall'Intelligenza Artificiale (AIGC), il loro potenziale nella creazione intelligente di contenuti audio rimane inesplorato. In questo lavoro, affrontiamo il problema della creazione di contenuti audio con trame che includono discorsi, musica ed effetti sonori, guidati da istruzioni testuali. Presentiamo WavJourney, un sistema che sfrutta i LLM per connettere vari modelli audio per la generazione di contenuti audio. Data una descrizione testuale di una scena uditiva, WavJourney prima invita i LLM a generare uno script strutturato dedicato alla narrazione audio. Lo script audio incorpora diversi elementi audio, organizzati in base alle loro relazioni spazio-temporali. Come rappresentazione concettuale dell'audio, lo script audio fornisce una logica interattiva e interpretabile per il coinvolgimento umano. Successivamente, lo script audio viene inserito in un compilatore di script, convertendolo in un programma per computer. Ogni riga del programma chiama un modello di generazione audio specifico per il compito o una funzione di operazione computazionale (ad esempio, concatenare, mixare). Il programma per computer viene quindi eseguito per ottenere una soluzione spiegabile per la generazione audio. Dimostriamo la praticità di WavJourney in diversi scenari del mondo reale, tra cui fantascienza, educazione e radiodrammi. Il design spiegabile e interattivo di WavJourney favorisce la co-creazione uomo-macchina in dialoghi multi-round, migliorando il controllo creativo e l'adattabilità nella produzione audio. WavJourney audioalizza l'immaginazione umana, aprendo nuove strade per la creatività nella creazione di contenuti multimediali.
English
Large Language Models (LLMs) have shown great promise in integrating diverse
expert models to tackle intricate language and vision tasks. Despite their
significance in advancing the field of Artificial Intelligence Generated
Content (AIGC), their potential in intelligent audio content creation remains
unexplored. In this work, we tackle the problem of creating audio content with
storylines encompassing speech, music, and sound effects, guided by text
instructions. We present WavJourney, a system that leverages LLMs to connect
various audio models for audio content generation. Given a text description of
an auditory scene, WavJourney first prompts LLMs to generate a structured
script dedicated to audio storytelling. The audio script incorporates diverse
audio elements, organized based on their spatio-temporal relationships. As a
conceptual representation of audio, the audio script provides an interactive
and interpretable rationale for human engagement. Afterward, the audio script
is fed into a script compiler, converting it into a computer program. Each line
of the program calls a task-specific audio generation model or computational
operation function (e.g., concatenate, mix). The computer program is then
executed to obtain an explainable solution for audio generation. We demonstrate
the practicality of WavJourney across diverse real-world scenarios, including
science fiction, education, and radio play. The explainable and interactive
design of WavJourney fosters human-machine co-creation in multi-round
dialogues, enhancing creative control and adaptability in audio production.
WavJourney audiolizes the human imagination, opening up new avenues for
creativity in multimedia content creation.