Seed-Music : Un cadre unifié pour la génération de musique de haute qualité et contrôlée

Résumé

Nous présentons Seed-Music, une suite de systèmes de génération musicale capable de produire de la musique de haute qualité avec un contrôle de style finement détaillé. Notre cadre unifié exploite à la fois la modélisation de langage auto-régressive et les approches de diffusion pour prendre en charge deux flux de travail clés de création musicale : la génération de musique contrôlée et l'édition en post-production. Pour la génération de musique contrôlée, notre système permet la génération de musique vocale avec des contrôles de performance à partir d'entrées multimodales, y compris des descriptions de style, des références audio, des partitions musicales et des indications vocales. Pour l'édition en post-production, il offre des outils interactifs pour éditer les paroles et les mélodies vocales directement dans l'audio généré. Nous encourageons les lecteurs à écouter des exemples audio de démonstration sur https://team.doubao.com/seed-music.

English

We introduce Seed-Music, a suite of music generation systems capable of producing high-quality music with fine-grained style control. Our unified framework leverages both auto-regressive language modeling and diffusion approaches to support two key music creation workflows: controlled music generation and post-production editing. For controlled music generation, our system enables vocal music generation with performance controls from multi-modal inputs, including style descriptions, audio references, musical scores, and voice prompts. For post-production editing, it offers interactive tools for editing lyrics and vocal melodies directly in the generated audio. We encourage readers to listen to demo audio examples at https://team.doubao.com/seed-music .