ChatPaper.aiChatPaper

MusiConGen: Rhythmus- und Akkordsteuerung für auf Transformer basierende Text-zu-Musik-Generierung

MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation

July 21, 2024
Autoren: Yun-Han Lan, Wen-Yi Hsiao, Hao-Chung Cheng, Yi-Hsuan Yang
cs.AI

Zusammenfassung

Bestehende Text-zu-Musik-Modelle können hochwertige Audiodateien mit großer Vielfalt erzeugen. Allerdings können textuelle Anweisungen allein temporale Musikmerkmale wie Akkorde und Rhythmus der generierten Musik nicht präzise steuern. Um diese Herausforderung anzugehen, stellen wir MusiConGen vor, ein zeitlich konditioniertes Transformer-basiertes Text-zu-Musik-Modell, das auf dem vorab trainierten MusicGen-Framework aufbaut. Unsere Innovation liegt in einem effizienten Feinabstimmungsmechanismus, der speziell für Consumer-Grade-GPUs entwickelt wurde und automatisch extrahierte Rhythmen und Akkorde als Bedingungssignal integriert. Während der Inferenz kann die Bedingung entweder musikalische Merkmale sein, die aus einem Referenz-Audiosignal extrahiert wurden, oder vom Benutzer definierte symbolische Akkordsequenzen, BPM und textuelle Anweisungen. Unsere Leistungsbewertung anhand zweier Datensätze - einer abgeleitet von extrahierten Merkmalen und der andere von benutzererstellten Eingaben - zeigt, dass MusiConGen realistische Begleitmusik erzeugen kann, die gut mit den spezifizierten Bedingungen übereinstimmt. Wir stellen den Code und die Modell-Checkpoints als Open Source zur Verfügung und bieten Online-Audio-Beispiele unter https://musicongen.github.io/musicongen_demo/.
English
Existing text-to-music models can produce high-quality audio with great diversity. However, textual prompts alone cannot precisely control temporal musical features such as chords and rhythm of the generated music. To address this challenge, we introduce MusiConGen, a temporally-conditioned Transformer-based text-to-music model that builds upon the pretrained MusicGen framework. Our innovation lies in an efficient finetuning mechanism, tailored for consumer-grade GPUs, that integrates automatically-extracted rhythm and chords as the condition signal. During inference, the condition can either be musical features extracted from a reference audio signal, or be user-defined symbolic chord sequence, BPM, and textual prompts. Our performance evaluation on two datasets -- one derived from extracted features and the other from user-created inputs -- demonstrates that MusiConGen can generate realistic backing track music that aligns well with the specified conditions. We open-source the code and model checkpoints, and provide audio examples online, https://musicongen.github.io/musicongen_demo/.

Summary

AI-Generated Summary

PDF92November 28, 2024