ChatPaper.aiChatPaper

WavJourney: Kompositionelle Audioerstellung mit großen Sprachmodellen

WavJourney: Compositional Audio Creation with Large Language Models

July 26, 2023
Autoren: Xubo Liu, Zhongkai Zhu, Haohe Liu, Yi Yuan, Meng Cui, Qiushi Huang, Jinhua Liang, Yin Cao, Qiuqiang Kong, Mark D. Plumbley, Wenwu Wang
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben großes Potenzial bei der Integration verschiedener Expertenmodelle gezeigt, um komplexe Sprach- und Bildaufgaben zu bewältigen. Trotz ihrer Bedeutung für die Weiterentwicklung des Bereichs der Künstlichen Intelligenz-generierten Inhalte (AIGC) bleibt ihr Potenzial in der intelligenten Audioinhaltserstellung unerforscht. In dieser Arbeit widmen wir uns dem Problem der Erstellung von Audioinhalten mit Handlungssträngen, die Sprache, Musik und Soundeffekte umfassen und durch Textanweisungen gesteuert werden. Wir stellen WavJourney vor, ein System, das LLMs nutzt, um verschiedene Audiomodelle für die Audioinhaltsgenerierung zu verbinden. Bei einer Textbeschreibung einer auditiven Szene generiert WavJourney zunächst mithilfe von LLMs ein strukturiertes Skript, das speziell für das Audio-Storytelling entwickelt wurde. Das Audioskript beinhaltet diverse Audioelemente, die basierend auf ihren räumlich-zeitlichen Beziehungen organisiert sind. Als konzeptionelle Darstellung von Audio bietet das Audioskript eine interaktive und interpretierbare Grundlage für die menschliche Beteiligung. Anschließend wird das Audioskript in einen Skript-Compiler eingespeist, der es in ein Computerprogramm umwandelt. Jede Zeile des Programms ruft ein aufgabenspezifisches Audioerstellungsmodell oder eine Rechenoperation (z. B. verketten, mischen) auf. Das Computerprogramm wird dann ausgeführt, um eine erklärbare Lösung für die Audioerstellung zu erhalten. Wir demonstrieren die Praxistauglichkeit von WavJourney in verschiedenen realen Szenarien, darunter Science-Fiction, Bildung und Hörspiele. Das erklärbare und interaktive Design von WavJourney fördert die Mensch-Maschine-Zusammenarbeit in mehrrundigen Dialogen und verbessert die kreative Kontrolle und Anpassungsfähigkeit in der Audioproduktion. WavJourney verleiht der menschlichen Vorstellungskraft eine auditive Form und eröffnet neue Wege für Kreativität in der Multimedia-Inhaltserstellung.
English
Large Language Models (LLMs) have shown great promise in integrating diverse expert models to tackle intricate language and vision tasks. Despite their significance in advancing the field of Artificial Intelligence Generated Content (AIGC), their potential in intelligent audio content creation remains unexplored. In this work, we tackle the problem of creating audio content with storylines encompassing speech, music, and sound effects, guided by text instructions. We present WavJourney, a system that leverages LLMs to connect various audio models for audio content generation. Given a text description of an auditory scene, WavJourney first prompts LLMs to generate a structured script dedicated to audio storytelling. The audio script incorporates diverse audio elements, organized based on their spatio-temporal relationships. As a conceptual representation of audio, the audio script provides an interactive and interpretable rationale for human engagement. Afterward, the audio script is fed into a script compiler, converting it into a computer program. Each line of the program calls a task-specific audio generation model or computational operation function (e.g., concatenate, mix). The computer program is then executed to obtain an explainable solution for audio generation. We demonstrate the practicality of WavJourney across diverse real-world scenarios, including science fiction, education, and radio play. The explainable and interactive design of WavJourney fosters human-machine co-creation in multi-round dialogues, enhancing creative control and adaptability in audio production. WavJourney audiolizes the human imagination, opening up new avenues for creativity in multimedia content creation.
PDF441December 15, 2024