WavJourney: Kompositionelle Audioerstellung mit großen Sprachmodellen
WavJourney: Compositional Audio Creation with Large Language Models
July 26, 2023
Autoren: Xubo Liu, Zhongkai Zhu, Haohe Liu, Yi Yuan, Meng Cui, Qiushi Huang, Jinhua Liang, Yin Cao, Qiuqiang Kong, Mark D. Plumbley, Wenwu Wang
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben großes Potenzial bei der Integration verschiedener Expertenmodelle gezeigt, um komplexe Sprach- und Bildaufgaben zu bewältigen. Trotz ihrer Bedeutung für die Weiterentwicklung des Bereichs der Künstlichen Intelligenz-generierten Inhalte (AIGC) bleibt ihr Potenzial in der intelligenten Audioinhaltserstellung unerforscht. In dieser Arbeit widmen wir uns dem Problem der Erstellung von Audioinhalten mit Handlungssträngen, die Sprache, Musik und Soundeffekte umfassen und durch Textanweisungen gesteuert werden. Wir stellen WavJourney vor, ein System, das LLMs nutzt, um verschiedene Audiomodelle für die Audioinhaltsgenerierung zu verbinden. Bei einer Textbeschreibung einer auditiven Szene generiert WavJourney zunächst mithilfe von LLMs ein strukturiertes Skript, das speziell für das Audio-Storytelling entwickelt wurde. Das Audioskript beinhaltet diverse Audioelemente, die basierend auf ihren räumlich-zeitlichen Beziehungen organisiert sind. Als konzeptionelle Darstellung von Audio bietet das Audioskript eine interaktive und interpretierbare Grundlage für die menschliche Beteiligung. Anschließend wird das Audioskript in einen Skript-Compiler eingespeist, der es in ein Computerprogramm umwandelt. Jede Zeile des Programms ruft ein aufgabenspezifisches Audioerstellungsmodell oder eine Rechenoperation (z. B. verketten, mischen) auf. Das Computerprogramm wird dann ausgeführt, um eine erklärbare Lösung für die Audioerstellung zu erhalten. Wir demonstrieren die Praxistauglichkeit von WavJourney in verschiedenen realen Szenarien, darunter Science-Fiction, Bildung und Hörspiele. Das erklärbare und interaktive Design von WavJourney fördert die Mensch-Maschine-Zusammenarbeit in mehrrundigen Dialogen und verbessert die kreative Kontrolle und Anpassungsfähigkeit in der Audioproduktion. WavJourney verleiht der menschlichen Vorstellungskraft eine auditive Form und eröffnet neue Wege für Kreativität in der Multimedia-Inhaltserstellung.
English
Large Language Models (LLMs) have shown great promise in integrating diverse
expert models to tackle intricate language and vision tasks. Despite their
significance in advancing the field of Artificial Intelligence Generated
Content (AIGC), their potential in intelligent audio content creation remains
unexplored. In this work, we tackle the problem of creating audio content with
storylines encompassing speech, music, and sound effects, guided by text
instructions. We present WavJourney, a system that leverages LLMs to connect
various audio models for audio content generation. Given a text description of
an auditory scene, WavJourney first prompts LLMs to generate a structured
script dedicated to audio storytelling. The audio script incorporates diverse
audio elements, organized based on their spatio-temporal relationships. As a
conceptual representation of audio, the audio script provides an interactive
and interpretable rationale for human engagement. Afterward, the audio script
is fed into a script compiler, converting it into a computer program. Each line
of the program calls a task-specific audio generation model or computational
operation function (e.g., concatenate, mix). The computer program is then
executed to obtain an explainable solution for audio generation. We demonstrate
the practicality of WavJourney across diverse real-world scenarios, including
science fiction, education, and radio play. The explainable and interactive
design of WavJourney fosters human-machine co-creation in multi-round
dialogues, enhancing creative control and adaptability in audio production.
WavJourney audiolizes the human imagination, opening up new avenues for
creativity in multimedia content creation.