HeartMuLa: Семейство открытых фундаментальных моделей для музыки
HeartMuLa: A Family of Open Sourced Music Foundation Models
January 15, 2026
Авторы: Dongchao Yang, Yuxin Xie, Yuguo Yin, Zheyu Wang, Xiaoyu Yi, Gongxi Zhu, Xiaolong Weng, Zihan Xiong, Yingzhe Ma, Dading Cong, Jingliang Liu, Zihang Huang, Jinghan Ru, Rongjie Huang, Haoran Wan, Peixu Wang, Kuoxi Yu, Helin Wang, Liming Liang, Xianwei Zhuang, Yuanyuan Wang, Haohan Guo, Junjie Cao, Zeqian Ju, Songxiang Liu, Yuewen Cao, Heming Weng, Yuexian Zou
cs.AI
Аннотация
Мы представляем семейство открытых базовых моделей для музыки, предназначенных для продвижения масштабного понимания и генерации музыки в разнообразных задачах и модальностях. Наша архитектура состоит из четырёх основных компонентов: (1) HeartCLAP — модель согласования аудио и текста; (2) HeartTranscriptor — надежная модель распознавания текстов песен, оптимизированная для реальных музыкальных сценариев; и (3) HeartCodec — музыкальный кодек-токенизатор с низкой частотой кадров (12.5 Гц), но высокой точностью воспроизведения, который захватывает долгосрочную музыкальную структуру, сохраняя тонкие акустические детали и обеспечивая эффективное авторегрессионное моделирование; (4) HeartMuLa — модель генерации песен на основе больших языковых моделей (LLM), способная синтезировать музыку высокого качества при наличии богатых, управляемых пользователем условий (например, текстовых описаний стиля, текстов песен и референсного аудио). Кроме того, она предоставляет два специализированных режима: (i) детальное управление музыкальными атрибутами, позволяющее пользователю задавать стиль различных разделов песни (например, вступление, куплет, припев) с помощью промптов на естественном языке; и (ii) генерация короткой, увлекательной музыки, подходящей для использования в качестве фоновой музыки в коротких видео. Наконец, производительность HeartMuLa значительно улучшается при масштабировании до 7 миллиардов параметров. Впервые мы демонстрируем, что систему коммерческого уровня, сопоставимую с Suno, можно воспроизвести с использованием академических объемов данных и вычислительных ресурсов GPU. Мы ожидаем, что эти базовые модели послужат надежным базисом для будущих исследований и будут способствовать практическому применению в мультимодальном контент-продюсировании.
English
We present a family of open-source Music Foundation Models designed to advance large-scale music understanding and generation across diverse tasks and modalities. Our framework consists of four major components: (1) HeartCLAP, an audio-text alignment model; (2) HeartTranscriptor, a robust lyric recognition model optimized for real-world music scenarios; and (3) HeartCodec, a low-frame-rate (12.5 Hz) yet high-fidelity music codec tokenizer that captures long-range musical structure while preserving fine-grained acoustic details and enabling efficient autoregressive modeling; (4) HeartMuLa, an LLM-based song generation model capable of synthesizing high-fidelity music under rich, user-controllable conditions (e.g., textual style descriptions, lyrics, and reference audio). In addition, it provides two specialized modes: (i) fine-grained musical attribute control, which allows users to specify the style of different song sections (e.g., intro, verse, chorus) using natural language prompts; and (ii) short, engaging music generation, which is suitable as background music for short videos. Lastly, HeartMuLa improves significantly when scaled to 7B parameters. For the first time, we show that a Suno-level, commercial-grade system can be reproduced using academic-scale data and GPU resources. We expect these foundation models to serve as strong baselines for future research and to facilitate practical applications in multimodal content production.