ChatPaper.aiChatPaper

HeartMuLa : Une famille de modèles fondamentaux de musique open source

HeartMuLa: A Family of Open Sourced Music Foundation Models

January 15, 2026
papers.authors: Dongchao Yang, Yuxin Xie, Yuguo Yin, Zheyu Wang, Xiaoyu Yi, Gongxi Zhu, Xiaolong Weng, Zihan Xiong, Yingzhe Ma, Dading Cong, Jingliang Liu, Zihang Huang, Jinghan Ru, Rongjie Huang, Haoran Wan, Peixu Wang, Kuoxi Yu, Helin Wang, Liming Liang, Xianwei Zhuang, Yuanyuan Wang, Haohan Guo, Junjie Cao, Zeqian Ju, Songxiang Liu, Yuewen Cao, Heming Weng, Yuexian Zou
cs.AI

papers.abstract

Nous présentons une familles de modèles de fondation musicaux open-source conçus pour faire progresser la compréhension et la génération musicale à grande échelle à travers diverses tâches et modalités. Notre cadre comprend quatre composantes majeures : (1) HeartCLAP, un modèle d'alignement audio-texte ; (2) HeartTranscriptor, un modèle robuste de reconnaissance de paroles optimisé pour les scénarios musicaux réels ; et (3) HeartCodec, un tokeniseur de codec musical à faible fréquence d'images (12,5 Hz) mais à haute fidélité qui capture la structure musicale à long terme tout en préservant les détails acoustiques fins et en permettant une modélisation autoregressive efficace ; (4) HeartMuLa, un modèle de génération de chansons basé sur un LLM capable de synthétiser de la musique haute fidélité sous des conditions riches et contrôlables par l'utilisateur (par exemple, descriptions textuelles de style, paroles et audio de référence). De plus, il propose deux modes spécialisés : (i) un contrôle granulaire des attributs musicaux, qui permet aux utilisateurs de spécifier le style de différentes sections de chanson (par exemple, intro, couplet, refrain) à l'aide d'invites en langage naturel ; et (ii) une génération de musique courte et engageante, adaptée comme musique de fond pour les vidéos courtes. Enfin, HeartMuLa s'améliore significativement lorsqu'il est mis à l'échelle à 7 milliards de paramètres. Pour la première fois, nous démontrons qu'un système de niveau commercial équivalent à Suno peut être reproduit en utilisant des données et des ressources GPU à l'échelle académique. Nous espérons que ces modèles de fondation serviront de bases solides pour les recherches futures et faciliteront les applications pratiques dans la production de contenu multimodal.
English
We present a family of open-source Music Foundation Models designed to advance large-scale music understanding and generation across diverse tasks and modalities. Our framework consists of four major components: (1) HeartCLAP, an audio-text alignment model; (2) HeartTranscriptor, a robust lyric recognition model optimized for real-world music scenarios; and (3) HeartCodec, a low-frame-rate (12.5 Hz) yet high-fidelity music codec tokenizer that captures long-range musical structure while preserving fine-grained acoustic details and enabling efficient autoregressive modeling; (4) HeartMuLa, an LLM-based song generation model capable of synthesizing high-fidelity music under rich, user-controllable conditions (e.g., textual style descriptions, lyrics, and reference audio). In addition, it provides two specialized modes: (i) fine-grained musical attribute control, which allows users to specify the style of different song sections (e.g., intro, verse, chorus) using natural language prompts; and (ii) short, engaging music generation, which is suitable as background music for short videos. Lastly, HeartMuLa improves significantly when scaled to 7B parameters. For the first time, we show that a Suno-level, commercial-grade system can be reproduced using academic-scale data and GPU resources. We expect these foundation models to serve as strong baselines for future research and to facilitate practical applications in multimodal content production.
PDF81January 17, 2026