HeartMuLa: Uma Família de Modelos Fundamentais de Música de Código Aberto

Resumo

Apresentamos uma famílias de Modelos de Fundação Musical de código aberto projetados para avançar a compreensão e geração musical em larga escala em diversas tarefas e modalidades. Nossa estrutura consiste em quatro componentes principais: (1) HeartCLAP, um modelo de alinhamento áudio-texto; (2) HeartTranscriptor, um modelo robusto de reconhecimento de letras otimizado para cenários musicais do mundo real; e (3) HeartCodec, um tokenizador de codec musical de baixa taxa de quadros (12,5 Hz) e alta fidelidade que captura a estrutura musical de longo alcance, preservando detalhes acústicos refinados e permitindo modelagem autoregressiva eficiente; (4) HeartMuLa, um modelo de geração de músicas baseado em LLM capaz de sintetizar música de alta fidelidade sob condições ricas e controláveis pelo usuário (por exemplo, descrições de estilo textuais, letras e áudio de referência). Além disso, ele oferece dois modos especializados: (i) controle refinado de atributos musicais, que permite aos usuários especificar o estilo de diferentes seções da música (por exemplo, introdução, verso, refrão) usando prompts de linguagem natural; e (ii) geração de música curta e cativante, adequada como música de fundo para vídeos curtos. Por fim, o HeartMuLa melhora significativamente quando dimensionado para 7 bilhões de parâmetros. Pela primeira vez, demonstramos que um sistema de nível comercial, comparável ao Suno, pode ser reproduzido usando dados e recursos de GPU em escala acadêmica. Esperamos que esses modelos de fundação sirvam como bases sólidas para pesquisas futuras e facilitem aplicações práticas na produção de conteúdo multimodal.

English

We present a family of open-source Music Foundation Models designed to advance large-scale music understanding and generation across diverse tasks and modalities. Our framework consists of four major components: (1) HeartCLAP, an audio-text alignment model; (2) HeartTranscriptor, a robust lyric recognition model optimized for real-world music scenarios; and (3) HeartCodec, a low-frame-rate (12.5 Hz) yet high-fidelity music codec tokenizer that captures long-range musical structure while preserving fine-grained acoustic details and enabling efficient autoregressive modeling; (4) HeartMuLa, an LLM-based song generation model capable of synthesizing high-fidelity music under rich, user-controllable conditions (e.g., textual style descriptions, lyrics, and reference audio). In addition, it provides two specialized modes: (i) fine-grained musical attribute control, which allows users to specify the style of different song sections (e.g., intro, verse, chorus) using natural language prompts; and (ii) short, engaging music generation, which is suitable as background music for short videos. Lastly, HeartMuLa improves significantly when scaled to 7B parameters. For the first time, we show that a Suno-level, commercial-grade system can be reproduced using academic-scale data and GPU resources. We expect these foundation models to serve as strong baselines for future research and to facilitate practical applications in multimodal content production.

HeartMuLa: Uma Família de Modelos Fundamentais de Música de Código Aberto

HeartMuLa: A Family of Open Sourced Music Foundation Models

Resumo

Support