HeartMuLa: Een Familie van Open-Source Muziekfundatiemodellen

Samenvatting

Wij presenteren een familie van open-source Music Foundation Models die zijn ontworpen om grootschalige muziekbegrip en -generatie voor diverse taken en modaliteiten te bevorderen. Ons raamwerk bestaat uit vier hoofdcomponenten: (1) HeartCLAP, een audio-tekst-uitlijningsmodel; (2) HeartTranscriptor, een robuust model voor tekstherkenning dat is geoptimaliseerd voor real-world muziekscenario's; en (3) HeartCodec, een muziekcodec-tokenizer met een laag frame-per-seconde (12,5 Hz) maar hoge geluidskwaliteit, die langetermijnmuziekstructuur vastlegt terwijl fijnmazige akoestische details behouden blijven en efficiënte autoregressieve modellering mogelijk wordt gemaakt; (4) HeartMuLa, een op een LLM gebaseerd liedgeneratiemodel dat in staat is om muziek van hoge kwaliteit te synthetiseren onder rijke, door de gebruiker aanstuurbare condities (bijv. tekstuele stijlbeschrijvingen, songteksten en referentie-audio). Daarnaast biedt het twee gespecialiseerde modi: (i) fijnmazige controle over muzikale attributen, waarmee gebruikers de stijl van verschillende liedsecties (bijv. intro, couplet, refrein) kunnen specificeren met behulp van natuurlijke taalprompts; en (ii) korte, boeiende muziekgeneratie, die geschikt is als achtergrondmuziek voor korte video's. Ten slotte verbetert HeartMuLa aanzienlijk wanneer het wordt opgeschaald naar 7B parameters. Voor het eerst tonen we aan dat een Suno-niveau, commercieel-kwaliteit systeem gereproduceerd kan worden met academische schaalgrootte aan data en GPU-bronnen. Wij verwachten dat deze foundation models zullen dienen als sterke uitgangspunten voor toekomstig onderzoek en zullen bijdragen aan praktische toepassingen in multimodale contentproductie.

English

We present a family of open-source Music Foundation Models designed to advance large-scale music understanding and generation across diverse tasks and modalities. Our framework consists of four major components: (1) HeartCLAP, an audio-text alignment model; (2) HeartTranscriptor, a robust lyric recognition model optimized for real-world music scenarios; and (3) HeartCodec, a low-frame-rate (12.5 Hz) yet high-fidelity music codec tokenizer that captures long-range musical structure while preserving fine-grained acoustic details and enabling efficient autoregressive modeling; (4) HeartMuLa, an LLM-based song generation model capable of synthesizing high-fidelity music under rich, user-controllable conditions (e.g., textual style descriptions, lyrics, and reference audio). In addition, it provides two specialized modes: (i) fine-grained musical attribute control, which allows users to specify the style of different song sections (e.g., intro, verse, chorus) using natural language prompts; and (ii) short, engaging music generation, which is suitable as background music for short videos. Lastly, HeartMuLa improves significantly when scaled to 7B parameters. For the first time, we show that a Suno-level, commercial-grade system can be reproduced using academic-scale data and GPU resources. We expect these foundation models to serve as strong baselines for future research and to facilitate practical applications in multimodal content production.

HeartMuLa: Een Familie van Open-Source Muziekfundatiemodellen

HeartMuLa: A Family of Open Sourced Music Foundation Models

Samenvatting

Support