WavJourney: Criação Composicional de Áudio com Modelos de Linguagem de Grande Escala
WavJourney: Compositional Audio Creation with Large Language Models
July 26, 2023
Autores: Xubo Liu, Zhongkai Zhu, Haohe Liu, Yi Yuan, Meng Cui, Qiushi Huang, Jinhua Liang, Yin Cao, Qiuqiang Kong, Mark D. Plumbley, Wenwu Wang
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado grande potencial na integração de diversos modelos especializados para abordar tarefas complexas de linguagem e visão. Apesar de sua importância no avanço do campo de Conteúdo Gerado por Inteligência Artificial (AIGC), seu potencial na criação inteligente de conteúdo de áudio permanece inexplorado. Neste trabalho, abordamos o problema de criar conteúdo de áudio com narrativas que abrangem fala, música e efeitos sonoros, orientadas por instruções textuais. Apresentamos o WavJourney, um sistema que utiliza LLMs para conectar diversos modelos de áudio na geração de conteúdo sonoro. Dada uma descrição textual de uma cena auditiva, o WavJourney primeiro solicita que os LLMs gerem um roteiro estruturado dedicado à narrativa de áudio. O roteiro de áudio incorpora diversos elementos sonoros, organizados com base em suas relações espaço-temporais. Como uma representação conceitual do áudio, o roteiro fornece uma justificativa interativa e interpretável para o engajamento humano. Posteriormente, o roteiro de áudio é alimentado em um compilador de scripts, convertendo-o em um programa de computador. Cada linha do programa chama um modelo de geração de áudio específico para uma tarefa ou uma função de operação computacional (por exemplo, concatenar, mixar). O programa de computador é então executado para obter uma solução explicável para a geração de áudio. Demonstramos a praticidade do WavJourney em diversos cenários do mundo real, incluindo ficção científica, educação e radionovela. O design explicável e interativo do WavJourney promove a cocriação humano-máquina em diálogos de múltiplas rodadas, aumentando o controle criativo e a adaptabilidade na produção de áudio. O WavJourney audioliza a imaginação humana, abrindo novos caminhos para a criatividade na criação de conteúdo multimídia.
English
Large Language Models (LLMs) have shown great promise in integrating diverse
expert models to tackle intricate language and vision tasks. Despite their
significance in advancing the field of Artificial Intelligence Generated
Content (AIGC), their potential in intelligent audio content creation remains
unexplored. In this work, we tackle the problem of creating audio content with
storylines encompassing speech, music, and sound effects, guided by text
instructions. We present WavJourney, a system that leverages LLMs to connect
various audio models for audio content generation. Given a text description of
an auditory scene, WavJourney first prompts LLMs to generate a structured
script dedicated to audio storytelling. The audio script incorporates diverse
audio elements, organized based on their spatio-temporal relationships. As a
conceptual representation of audio, the audio script provides an interactive
and interpretable rationale for human engagement. Afterward, the audio script
is fed into a script compiler, converting it into a computer program. Each line
of the program calls a task-specific audio generation model or computational
operation function (e.g., concatenate, mix). The computer program is then
executed to obtain an explainable solution for audio generation. We demonstrate
the practicality of WavJourney across diverse real-world scenarios, including
science fiction, education, and radio play. The explainable and interactive
design of WavJourney fosters human-machine co-creation in multi-round
dialogues, enhancing creative control and adaptability in audio production.
WavJourney audiolizes the human imagination, opening up new avenues for
creativity in multimedia content creation.