FLUX que Reproduce Música

Resumen

Este documento explora una simple extensión de los Transformers de flujo rectificado basados en difusión para la generación de texto a música, denominada FluxMusic. En general, junto con el diseño avanzado del modelo Flux, lo transferimos a un espacio VAE latente de espectro melódico. Esto implica aplicar primero una secuencia de atención independiente al flujo doble de texto-música, seguido por un flujo de música único apilado para la predicción de parches des ruidizados. Empleamos múltiples codificadores de texto pre-entrenados para capturar suficientemente la información semántica de los subtítulos y la flexibilidad de inferencia. En medio de esto, la información textual gruesa, junto con incrustaciones de pasos temporales, se utiliza en un mecanismo de modulación, mientras que los detalles textuales detallados se concatenan con la secuencia de parches de música como entradas. A través de un estudio exhaustivo, demostramos que el entrenamiento de flujo rectificado con una arquitectura optimizada supera significativamente a los métodos de difusión establecidos para la tarea de texto a música, como lo demuestran varias métricas automáticas y evaluaciones de preferencia humana. Nuestros datos experimentales, código y pesos del modelo están disponibles públicamente en: https://github.com/feizc/FluxMusic.

English

This paper explores a simple extension of diffusion-based rectified flow Transformers for text-to-music generation, termed as FluxMusic. Generally, along with design in advanced Fluxhttps://github.com/black-forest-labs/flux model, we transfers it into a latent VAE space of mel-spectrum. It involves first applying a sequence of independent attention to the double text-music stream, followed by a stacked single music stream for denoised patch prediction. We employ multiple pre-trained text encoders to sufficiently capture caption semantic information as well as inference flexibility. In between, coarse textual information, in conjunction with time step embeddings, is utilized in a modulation mechanism, while fine-grained textual details are concatenated with the music patch sequence as inputs. Through an in-depth study, we demonstrate that rectified flow training with an optimized architecture significantly outperforms established diffusion methods for the text-to-music task, as evidenced by various automatic metrics and human preference evaluations. Our experimental data, code, and model weights are made publicly available at: https://github.com/feizc/FluxMusic.

FLUX que Reproduce Música

FLUX that Plays Music

Resumen

Support