ChatPaper.aiChatPaper

HeartMuLa: Eine Familie quelloffener Musik-Basismodelle

HeartMuLa: A Family of Open Sourced Music Foundation Models

January 15, 2026
papers.authors: Dongchao Yang, Yuxin Xie, Yuguo Yin, Zheyu Wang, Xiaoyu Yi, Gongxi Zhu, Xiaolong Weng, Zihan Xiong, Yingzhe Ma, Dading Cong, Jingliang Liu, Zihang Huang, Jinghan Ru, Rongjie Huang, Haoran Wan, Peixu Wang, Kuoxi Yu, Helin Wang, Liming Liang, Xianwei Zhuang, Yuanyuan Wang, Haohan Guo, Junjie Cao, Zeqian Ju, Songxiang Liu, Yuewen Cao, Heming Weng, Yuexian Zou
cs.AI

papers.abstract

Wir stellen eine Familie quelloffener Music Foundation Models vor, die entwickelt wurden, um das groß angelegte Musikverständnis und die Musikerzeugung über verschiedene Aufgaben und Modalitäten hinweg zu verbessern. Unser Framework besteht aus vier Hauptkomponenten: (1) HeartCLAP, einem Audio-Text-Ausrichtungsmodell; (2) HeartTranscriptor, einem robusten Modell zur Texterkennung, das für reale Musikszenarien optimiert ist; und (3) HeartCodec, einem Musik-Codec-Tokenizer mit niedriger Bildwiederholrate (12,5 Hz) und dennoch hoher Wiedergabetreue, der langreichweitige musikalische Strukturen erfasst, während feinkörnige akustische Details erhalten bleiben und eine effiziente autoregressive Modellierung ermöglicht wird; (4) HeartMuLa, einem LLM-basierten Songgenerierungsmodell, das in der Lage ist, hochwertige Musik unter reichhaltigen, benutzersteuerbaren Bedingungen zu synthetisieren (z. B. textuelle Stilbeschreibungen, Texte und Referenzaudio). Darüber hinaus bietet es zwei spezielle Modi: (i) feinkörnige musikalische Attributsteuerung, die es Benutzern ermöglicht, den Stil verschiedener Songabschnitte (z. B. Intro, Strophe, Refrain) mithilfe natürlicher Sprachbefehle festzulegen; und (ii) kurze, ansprechende Musikerzeugung, die sich als Hintergrundmusik für Kurzvideos eignet. Schließlich verbessert sich HeartMuLa erheblich, wenn es auf 7B Parameter skaliert wird. Wir zeigen erstmals, dass ein Suno-ähnliches, kommerziell einsetzbares System mit akademischen Daten- und GPU-Ressourcen reproduziert werden kann. Wir erwarten, dass diese Foundation Models als starke Baselines für zukünftige Forschung dienen und praktische Anwendungen in der multimodalen Inhaltsproduktion erleichtern werden.
English
We present a family of open-source Music Foundation Models designed to advance large-scale music understanding and generation across diverse tasks and modalities. Our framework consists of four major components: (1) HeartCLAP, an audio-text alignment model; (2) HeartTranscriptor, a robust lyric recognition model optimized for real-world music scenarios; and (3) HeartCodec, a low-frame-rate (12.5 Hz) yet high-fidelity music codec tokenizer that captures long-range musical structure while preserving fine-grained acoustic details and enabling efficient autoregressive modeling; (4) HeartMuLa, an LLM-based song generation model capable of synthesizing high-fidelity music under rich, user-controllable conditions (e.g., textual style descriptions, lyrics, and reference audio). In addition, it provides two specialized modes: (i) fine-grained musical attribute control, which allows users to specify the style of different song sections (e.g., intro, verse, chorus) using natural language prompts; and (ii) short, engaging music generation, which is suitable as background music for short videos. Lastly, HeartMuLa improves significantly when scaled to 7B parameters. For the first time, we show that a Suno-level, commercial-grade system can be reproduced using academic-scale data and GPU resources. We expect these foundation models to serve as strong baselines for future research and to facilitate practical applications in multimodal content production.
PDF81January 17, 2026