ChatPaper.aiChatPaper

HeartMuLa: 오픈소스 음악 파운데이션 모델 패밀리

HeartMuLa: A Family of Open Sourced Music Foundation Models

January 15, 2026
저자: Dongchao Yang, Yuxin Xie, Yuguo Yin, Zheyu Wang, Xiaoyu Yi, Gongxi Zhu, Xiaolong Weng, Zihan Xiong, Yingzhe Ma, Dading Cong, Jingliang Liu, Zihang Huang, Jinghan Ru, Rongjie Huang, Haoran Wan, Peixu Wang, Kuoxi Yu, Helin Wang, Liming Liang, Xianwei Zhuang, Yuanyuan Wang, Haohan Guo, Junjie Cao, Zeqian Ju, Songxiang Liu, Yuewen Cao, Heming Weng, Yuexian Zou
cs.AI

초록

우리는 다양한 작업과 양식에 걸쳐 대규모 음악 이해 및 생성을 발전시키기 위해 설계된 오픈소스 음악 파운데이션 모델 패밀리를 제안합니다. 우리의 프레임워크는 다음과 같은 네 가지 주요 구성 요소로 이루어집니다: (1) 오디오-텍스트 정렬 모델인 HeartCLAP; (2) 실제 음악 시나리오에 최적화된 강력한 가사 인식 모델인 HeartTranscriptor; (3) 장기간의 음악 구조를 포착하면서도 정교한 음향 세부 사항을 보존하고 효율적인 자기회귀 모델링을 가능하게 하는 저프레임률(12.5Hz) 고품질 음악 코덱 토크나이저인 HeartCodec; (4) 풍부하고 사용자 조정 가능한 조건(예: 텍스트 기반 스타일 설명, 가사, 참조 오디오) 하에서 고품질 음악 합성이 가능한 LLM 기반 음악 생성 모델인 HeartMuLa. 또한, 이 모델은 두 가지 특화된 모드를 제공합니다: (i) 자연어 프롬프트를 사용하여 음악의 각 섹션(예: 인트로, 벌스, 코러스)의 스타일을 개별적으로 지정할 수 있는 정교한 음악 속성 제어; (ii) 숏폼 비디오의 배경음악으로 적합한 짧고 흥미로운 음악 생성. 마지막으로, HeartMuLa는 7B 매개변수 규모로 확장되었을 때 성능이 크게 향상됩니다. 우리는 학술 연구 수준의 데이터와 GPU 자원만으로도 Suno 수준의 상용 급 시스템을 재현할 수 있음을 최초로 입증합니다. 이러한 파운데이션 모델들이 향후 연구의 강력한 기준선(baseline)으로 활용되고, 멀티모달 콘텐츠 제작의 실용적인 응용을 촉진할 것으로 기대합니다.
English
We present a family of open-source Music Foundation Models designed to advance large-scale music understanding and generation across diverse tasks and modalities. Our framework consists of four major components: (1) HeartCLAP, an audio-text alignment model; (2) HeartTranscriptor, a robust lyric recognition model optimized for real-world music scenarios; and (3) HeartCodec, a low-frame-rate (12.5 Hz) yet high-fidelity music codec tokenizer that captures long-range musical structure while preserving fine-grained acoustic details and enabling efficient autoregressive modeling; (4) HeartMuLa, an LLM-based song generation model capable of synthesizing high-fidelity music under rich, user-controllable conditions (e.g., textual style descriptions, lyrics, and reference audio). In addition, it provides two specialized modes: (i) fine-grained musical attribute control, which allows users to specify the style of different song sections (e.g., intro, verse, chorus) using natural language prompts; and (ii) short, engaging music generation, which is suitable as background music for short videos. Lastly, HeartMuLa improves significantly when scaled to 7B parameters. For the first time, we show that a Suno-level, commercial-grade system can be reproduced using academic-scale data and GPU resources. We expect these foundation models to serve as strong baselines for future research and to facilitate practical applications in multimodal content production.
PDF81January 17, 2026