Seed-Music: Un marco unificado para la generación de música de alta calidad y controlada

Resumen

Presentamos Seed-Music, un conjunto de sistemas de generación musical capaces de producir música de alta calidad con un control de estilo detallado. Nuestro marco unificado aprovecha tanto la modelización del lenguaje auto-regresivo como enfoques de difusión para respaldar dos flujos de trabajo clave en la creación musical: generación de música controlada y edición en postproducción. Para la generación de música controlada, nuestro sistema permite la generación de música vocal con controles de rendimiento a partir de entradas multimodales, que incluyen descripciones de estilo, referencias de audio, partituras musicales y indicaciones de voz. Para la edición en postproducción, ofrece herramientas interactivas para editar letras y melodías vocales directamente en el audio generado. Animamos a los lectores a escuchar ejemplos de audio de demostración en https://team.doubao.com/seed-music.

English

We introduce Seed-Music, a suite of music generation systems capable of producing high-quality music with fine-grained style control. Our unified framework leverages both auto-regressive language modeling and diffusion approaches to support two key music creation workflows: controlled music generation and post-production editing. For controlled music generation, our system enables vocal music generation with performance controls from multi-modal inputs, including style descriptions, audio references, musical scores, and voice prompts. For post-production editing, it offers interactive tools for editing lyrics and vocal melodies directly in the generated audio. We encourage readers to listen to demo audio examples at https://team.doubao.com/seed-music .