ChatPaper.aiChatPaper

MuseControlLite: Multifunktionale Musikerzeugung mit leichtgewichtigen Konditionierern

MuseControlLite: Multifunctional Music Generation with Lightweight Conditioners

June 23, 2025
Autoren: Fang-Duo Tsai, Shih-Lun Wu, Weijaw Lee, Sheng-Ping Yang, Bo-Rui Chen, Hao-Chung Cheng, Yi-Hsuan Yang
cs.AI

Zusammenfassung

Wir stellen MuseControlLite vor, einen leichtgewichtigen Mechanismus, der entwickelt wurde, um Text-zu-Musik-Generierungsmodelle für präzise Konditionierung mit verschiedenen zeitvariablen musikalischen Attributen und Referenz-Audiosignalen zu feinabstimmen. Die zentrale Erkenntnis ist, dass Positions-Einbettungen, die bisher selten in Text-zu-Musik-Generierungsmodellen für Textkonditionierungen verwendet wurden, entscheidend sind, wenn die interessierende Kondition eine Funktion der Zeit ist. Am Beispiel der Melodiekontrolle zeigen unsere Experimente, dass das einfache Hinzufügen von rotatorischen Positions-Einbettungen zu den entkoppelten Cross-Attention-Schichten die Kontrollgenauigkeit von 56,6 % auf 61,1 % erhöht, während 6,75-mal weniger trainierbare Parameter als bei modernsten Feinabstimmungsmechanismen benötigt werden, unter Verwendung des gleichen vortrainierten Diffusions-Transformer-Modells von Stable Audio Open. Wir evaluieren verschiedene Formen der musikalischen Attributkontrolle, Audio-Inpainting und Audio-Outpainting und demonstrieren eine verbesserte Steuerbarkeit im Vergleich zu MusicGen-Large und Stable Audio Open ControlNet bei deutlich geringeren Feinabstimmungskosten, mit nur 85M trainierbaren Parametern. Quellcode, Modell-Checkpoints und Demo-Beispiele sind verfügbar unter: https://musecontrollite.github.io/web/.
English
We propose MuseControlLite, a lightweight mechanism designed to fine-tune text-to-music generation models for precise conditioning using various time-varying musical attributes and reference audio signals. The key finding is that positional embeddings, which have been seldom used by text-to-music generation models in the conditioner for text conditions, are critical when the condition of interest is a function of time. Using melody control as an example, our experiments show that simply adding rotary positional embeddings to the decoupled cross-attention layers increases control accuracy from 56.6% to 61.1%, while requiring 6.75 times fewer trainable parameters than state-of-the-art fine-tuning mechanisms, using the same pre-trained diffusion Transformer model of Stable Audio Open. We evaluate various forms of musical attribute control, audio inpainting, and audio outpainting, demonstrating improved controllability over MusicGen-Large and Stable Audio Open ControlNet at a significantly lower fine-tuning cost, with only 85M trainble parameters. Source code, model checkpoints, and demo examples are available at: https://musecontrollite.github.io/web/.
PDF11June 27, 2025