ChatPaper.aiChatPaper

HeartMuLa: Una Familia de Modelos Fundamentales de Música de Código Abierto

HeartMuLa: A Family of Open Sourced Music Foundation Models

January 15, 2026
Autores: Dongchao Yang, Yuxin Xie, Yuguo Yin, Zheyu Wang, Xiaoyu Yi, Gongxi Zhu, Xiaolong Weng, Zihan Xiong, Yingzhe Ma, Dading Cong, Jingliang Liu, Zihang Huang, Jinghan Ru, Rongjie Huang, Haoran Wan, Peixu Wang, Kuoxi Yu, Helin Wang, Liming Liang, Xianwei Zhuang, Yuanyuan Wang, Haohan Guo, Junjie Cao, Zeqian Ju, Songxiang Liu, Yuewen Cao, Heming Weng, Yuexian Zou
cs.AI

Resumen

Presentamos una familia de Modelos Fundacionales de Música de código abierto diseñados para impulsar la comprensión y generación de música a gran escala en diversas tareas y modalidades. Nuestro marco de trabajo consta de cuatro componentes principales: (1) HeartCLAP, un modelo de alineación audio-texto; (2) HeartTranscriptor, un modelo robusto de reconocimiento de letras optimizado para escenarios musicales del mundo real; y (3) HeartCodec, un tokenizador de códec musical de baja tasa de frames (12.5 Hz) y alta fidelidad que captura la estructura musical de largo alcance mientras preserva detalles acústicos granulares y permite un modelado autorregresivo eficiente; (4) HeartMuLa, un modelo de generación de canciones basado en LLM capaz de sintetizar música de alta fidelidad bajo condiciones ricas y controlables por el usuario (por ejemplo, descripciones de estilo textuales, letras y audio de referencia). Además, proporciona dos modos especializados: (i) control granular de atributos musicales, que permite a los usuarios especificar el estilo de diferentes secciones de la canción (por ejemplo, introducción, estrofa, estribillo) utilizando instrucciones en lenguaje natural; y (ii) generación de música breve y atractiva, adecuada como música de fondo para videos cortos. Por último, HeartMuLa mejora significativamente al escalarse a 7 mil millones de parámetros. Por primera vez, demostramos que un sistema de nivel comercial comparable a Suno puede reproducirse utilizando datos y recursos de GPU a escala académica. Esperamos que estos modelos fundacionales sirvan como líneas base sólidas para investigaciones futuras y faciliten aplicaciones prácticas en la producción de contenido multimodal.
English
We present a family of open-source Music Foundation Models designed to advance large-scale music understanding and generation across diverse tasks and modalities. Our framework consists of four major components: (1) HeartCLAP, an audio-text alignment model; (2) HeartTranscriptor, a robust lyric recognition model optimized for real-world music scenarios; and (3) HeartCodec, a low-frame-rate (12.5 Hz) yet high-fidelity music codec tokenizer that captures long-range musical structure while preserving fine-grained acoustic details and enabling efficient autoregressive modeling; (4) HeartMuLa, an LLM-based song generation model capable of synthesizing high-fidelity music under rich, user-controllable conditions (e.g., textual style descriptions, lyrics, and reference audio). In addition, it provides two specialized modes: (i) fine-grained musical attribute control, which allows users to specify the style of different song sections (e.g., intro, verse, chorus) using natural language prompts; and (ii) short, engaging music generation, which is suitable as background music for short videos. Lastly, HeartMuLa improves significantly when scaled to 7B parameters. For the first time, we show that a Suno-level, commercial-grade system can be reproduced using academic-scale data and GPU resources. We expect these foundation models to serve as strong baselines for future research and to facilitate practical applications in multimodal content production.
PDF81January 17, 2026