HeartMuLa: Una Famiglia di Modelli Fondamentali Musicali Open Source

Abstract

Presentiamo una famiglia di Modelli Fondamentali Musicali open-source progettati per far progredire la comprensione e la generazione musicale su larga scala attraverso diverse attività e modalità. La nostra architettura si compone di quattro componenti principali: (1) HeartCLAP, un modello di allineamento audio-testo; (2) HeartTranscriptor, un robusto modello di riconoscimento dei testi ottimizzato per scenari musicali del mondo reale; e (3) HeartCodec, un tokenizzatore musicale a bassa frequenza di frame (12,5 Hz) ma ad alta fedeltà, che cattura la struttura musicale a lungo raggio preservando i dettagli acustici di granulometria fine e abilitando una modellazione autoregressiva efficiente; (4) HeartMuLa, un modello di generazione di brani basato su LLM in grado di sintetizzare musica ad alta fedeltà sotto condizioni ricche e controllabili dall'utente (ad es. descrizioni testuali dello stile, testi e audio di riferimento). Inoltre, fornisce due modalità specializzate: (i) controllo granulare degli attributi musicali, che consente agli utenti di specificare lo stile di diverse sezioni del brano (ad es. intro, strofa, ritornello) utilizzando prompt in linguaggio naturale; e (ii) generazione di musica breve e coinvolgente, adatta come musica di sottofondo per video brevi. Infine, HeartMuLa migliora significativamente quando scalato a 7 miliardi di parametri. Per la prima volta, dimostriamo che un sistema di livello commerciale paragonabile a Suno può essere riprodotto utilizzando dati e risorse GPU di scala accademica. Ci aspettiamo che questi modelli fondamentali servano come solide baseline per la ricerca futura e facilitino applicazioni pratiche nella produzione di contenuti multimodali.

English

We present a family of open-source Music Foundation Models designed to advance large-scale music understanding and generation across diverse tasks and modalities. Our framework consists of four major components: (1) HeartCLAP, an audio-text alignment model; (2) HeartTranscriptor, a robust lyric recognition model optimized for real-world music scenarios; and (3) HeartCodec, a low-frame-rate (12.5 Hz) yet high-fidelity music codec tokenizer that captures long-range musical structure while preserving fine-grained acoustic details and enabling efficient autoregressive modeling; (4) HeartMuLa, an LLM-based song generation model capable of synthesizing high-fidelity music under rich, user-controllable conditions (e.g., textual style descriptions, lyrics, and reference audio). In addition, it provides two specialized modes: (i) fine-grained musical attribute control, which allows users to specify the style of different song sections (e.g., intro, verse, chorus) using natural language prompts; and (ii) short, engaging music generation, which is suitable as background music for short videos. Lastly, HeartMuLa improves significantly when scaled to 7B parameters. For the first time, we show that a Suno-level, commercial-grade system can be reproduced using academic-scale data and GPU resources. We expect these foundation models to serve as strong baselines for future research and to facilitate practical applications in multimodal content production.

HeartMuLa: Una Famiglia di Modelli Fondamentali Musicali Open Source

HeartMuLa: A Family of Open Sourced Music Foundation Models

Abstract

Support