WavJourney: Композиционное создание аудио с использованием больших языковых моделей
WavJourney: Compositional Audio Creation with Large Language Models
July 26, 2023
Авторы: Xubo Liu, Zhongkai Zhu, Haohe Liu, Yi Yuan, Meng Cui, Qiushi Huang, Jinhua Liang, Yin Cao, Qiuqiang Kong, Mark D. Plumbley, Wenwu Wang
cs.AI
Аннотация
Крупные языковые модели (LLM) продемонстрировали значительный потенциал в интеграции разнообразных экспертных моделей для решения сложных задач в области языка и зрения. Несмотря на их важность для развития области генерации контента с использованием искусственного интеллекта (AIGC), их возможности в создании интеллектуального аудиоконтента остаются неисследованными. В данной работе мы решаем задачу создания аудиоконтента с сюжетными линиями, включающими речь, музыку и звуковые эффекты, на основе текстовых инструкций. Мы представляем WavJourney — систему, которая использует LLM для объединения различных аудиомоделей с целью генерации аудиоконтента. Получив текстовое описание аудиосцены, WavJourney сначала запрашивает у LLM создание структурированного сценария, предназначенного для аудиорассказа. Этот аудиосценарий включает разнообразные аудиоэлементы, организованные в соответствии с их пространственно-временными отношениями. Как концептуальное представление аудио, аудиосценарий обеспечивает интерактивную и интерпретируемую основу для взаимодействия с человеком. Затем аудиосценарий передается в компилятор сценариев, который преобразует его в компьютерную программу. Каждая строка программы вызывает специализированную модель генерации аудио или вычислительную операцию (например, объединение, микширование). Программа выполняется для получения объяснимого решения по генерации аудио. Мы демонстрируем практическую применимость WavJourney в различных реальных сценариях, включая научную фантастику, образование и радиопостановки. Объяснимый и интерактивный дизайн WavJourney способствует совместному творчеству человека и машины в многораундовых диалогах, повышая творческий контроль и адаптивность в производстве аудио. WavJourney озвучивает человеческое воображение, открывая новые возможности для творчества в создании мультимедийного контента.
English
Large Language Models (LLMs) have shown great promise in integrating diverse
expert models to tackle intricate language and vision tasks. Despite their
significance in advancing the field of Artificial Intelligence Generated
Content (AIGC), their potential in intelligent audio content creation remains
unexplored. In this work, we tackle the problem of creating audio content with
storylines encompassing speech, music, and sound effects, guided by text
instructions. We present WavJourney, a system that leverages LLMs to connect
various audio models for audio content generation. Given a text description of
an auditory scene, WavJourney first prompts LLMs to generate a structured
script dedicated to audio storytelling. The audio script incorporates diverse
audio elements, organized based on their spatio-temporal relationships. As a
conceptual representation of audio, the audio script provides an interactive
and interpretable rationale for human engagement. Afterward, the audio script
is fed into a script compiler, converting it into a computer program. Each line
of the program calls a task-specific audio generation model or computational
operation function (e.g., concatenate, mix). The computer program is then
executed to obtain an explainable solution for audio generation. We demonstrate
the practicality of WavJourney across diverse real-world scenarios, including
science fiction, education, and radio play. The explainable and interactive
design of WavJourney fosters human-machine co-creation in multi-round
dialogues, enhancing creative control and adaptability in audio production.
WavJourney audiolizes the human imagination, opening up new avenues for
creativity in multimedia content creation.