Seed-Music: Ein einheitlicher Rahmen für die hochwertige und kontrollierte Musikgenerierung

Zusammenfassung

Wir stellen Seed-Music vor, eine Suite von Musikgenerierungssystemen, die in der Lage sind, hochwertige Musik mit fein abgesteuerter Stilsteuerung zu erzeugen. Unser vereinheitlichter Ansatz nutzt sowohl autoregressive Sprachmodellierung als auch Diffusionsansätze, um zwei wesentliche Musikschöpfungsworkflows zu unterstützen: kontrollierte Musikgenerierung und Postproduktionsbearbeitung. Für kontrollierte Musikgenerierung ermöglicht unser System die Generierung von Vokalmusik mit Leistungssteuerungen aus multimodalen Eingaben, einschließlich Stilbeschreibungen, Audio-Referenzen, Musiknoten und Sprachhinweisen. Für die Postproduktionsbearbeitung bietet es interaktive Tools zur Bearbeitung von Texten und Vokalmelodien direkt im erzeugten Audio. Wir ermutigen die Leser, sich Demo-Audio-Beispiele unter https://team.doubao.com/seed-music anzuhören.

English

We introduce Seed-Music, a suite of music generation systems capable of producing high-quality music with fine-grained style control. Our unified framework leverages both auto-regressive language modeling and diffusion approaches to support two key music creation workflows: controlled music generation and post-production editing. For controlled music generation, our system enables vocal music generation with performance controls from multi-modal inputs, including style descriptions, audio references, musical scores, and voice prompts. For post-production editing, it offers interactive tools for editing lyrics and vocal melodies directly in the generated audio. We encourage readers to listen to demo audio examples at https://team.doubao.com/seed-music .