HeartMuLa: オープンソース音楽基盤モデルファミリー
HeartMuLa: A Family of Open Sourced Music Foundation Models
January 15, 2026
著者: Dongchao Yang, Yuxin Xie, Yuguo Yin, Zheyu Wang, Xiaoyu Yi, Gongxi Zhu, Xiaolong Weng, Zihan Xiong, Yingzhe Ma, Dading Cong, Jingliang Liu, Zihang Huang, Jinghan Ru, Rongjie Huang, Haoran Wan, Peixu Wang, Kuoxi Yu, Helin Wang, Liming Liang, Xianwei Zhuang, Yuanyuan Wang, Haohan Guo, Junjie Cao, Zeqian Ju, Songxiang Liu, Yuewen Cao, Heming Weng, Yuexian Zou
cs.AI
要旨
我々は、多様なタスクとモダリティにわたる大規模な音楽理解と生成を推進するために設計された、オープンソースの音楽基盤モデル群を提案する。本フレームワークは以下の4つの主要コンポーネントで構成される:(1) オーディオとテキストのアライメントモデルであるHeartCLAP、(2) 実世界の音楽シナリオに最適化された堅牢な歌詞認識モデルであるHeartTranscriptor、(3) 低フレームレート(12.5 Hz)でありながら高忠実度を実現する音楽コーデックトークナイザーであるHeartCodec。これは、細かい音響詳細を保持しつつ長期的な音楽構造を捉え、効率的な自己回帰モデリングを可能にする。(4) 豊富でユーザー制御可能な条件(例:テキストによるスタイル記述、歌詞、参照オーディオ)の下で高忠実度の音楽を合成可能な、LLMベースの楽曲生成モデルであるHeartMuLa。さらに、HeartMuLaは2つの特殊モードを提供する:(i) 自然言語プロンプトを用いて楽曲の異なるセクション(イントロ、ヴァース、コーラスなど)のスタイルを指定できる細かい音楽属性制御、(ii) ショート動画のBGMとして適した、短く魅力的な音楽生成。最後に、HeartMuLaはパラメータ数を70億にスケールアップすることで性能が大幅に向上する。我々は、学術規模のデータとGPUリソースを用いてSunoレベルの商用グレードシステムを再現できることを初めて実証した。これらの基盤モデルが将来の研究における強力なベースラインとなり、マルチモーダルコンテンツ制作における実用的応用を促進することを期待する。
English
We present a family of open-source Music Foundation Models designed to advance large-scale music understanding and generation across diverse tasks and modalities. Our framework consists of four major components: (1) HeartCLAP, an audio-text alignment model; (2) HeartTranscriptor, a robust lyric recognition model optimized for real-world music scenarios; and (3) HeartCodec, a low-frame-rate (12.5 Hz) yet high-fidelity music codec tokenizer that captures long-range musical structure while preserving fine-grained acoustic details and enabling efficient autoregressive modeling; (4) HeartMuLa, an LLM-based song generation model capable of synthesizing high-fidelity music under rich, user-controllable conditions (e.g., textual style descriptions, lyrics, and reference audio). In addition, it provides two specialized modes: (i) fine-grained musical attribute control, which allows users to specify the style of different song sections (e.g., intro, verse, chorus) using natural language prompts; and (ii) short, engaging music generation, which is suitable as background music for short videos. Lastly, HeartMuLa improves significantly when scaled to 7B parameters. For the first time, we show that a Suno-level, commercial-grade system can be reproduced using academic-scale data and GPU resources. We expect these foundation models to serve as strong baselines for future research and to facilitate practical applications in multimodal content production.