FLUX que Reproduce Música
FLUX that Plays Music
September 1, 2024
Autores: Zhengcong Fei, Mingyuan Fan, Changqian Yu, Junshi Huang
cs.AI
Resumen
Este documento explora una simple extensión de los Transformers de flujo rectificado basados en difusión para la generación de texto a música, denominada FluxMusic. En general, junto con el diseño avanzado del modelo Flux, lo transferimos a un espacio VAE latente de espectro melódico. Esto implica aplicar primero una secuencia de atención independiente al flujo doble de texto-música, seguido por un flujo de música único apilado para la predicción de parches des ruidizados. Empleamos múltiples codificadores de texto pre-entrenados para capturar suficientemente la información semántica de los subtítulos y la flexibilidad de inferencia. En medio de esto, la información textual gruesa, junto con incrustaciones de pasos temporales, se utiliza en un mecanismo de modulación, mientras que los detalles textuales detallados se concatenan con la secuencia de parches de música como entradas. A través de un estudio exhaustivo, demostramos que el entrenamiento de flujo rectificado con una arquitectura optimizada supera significativamente a los métodos de difusión establecidos para la tarea de texto a música, como lo demuestran varias métricas automáticas y evaluaciones de preferencia humana. Nuestros datos experimentales, código y pesos del modelo están disponibles públicamente en: https://github.com/feizc/FluxMusic.
English
This paper explores a simple extension of diffusion-based rectified flow
Transformers for text-to-music generation, termed as FluxMusic. Generally,
along with design in advanced
Fluxhttps://github.com/black-forest-labs/flux model, we transfers it
into a latent VAE space of mel-spectrum. It involves first applying a sequence
of independent attention to the double text-music stream, followed by a stacked
single music stream for denoised patch prediction. We employ multiple
pre-trained text encoders to sufficiently capture caption semantic information
as well as inference flexibility. In between, coarse textual information, in
conjunction with time step embeddings, is utilized in a modulation mechanism,
while fine-grained textual details are concatenated with the music patch
sequence as inputs. Through an in-depth study, we demonstrate that rectified
flow training with an optimized architecture significantly outperforms
established diffusion methods for the text-to-music task, as evidenced by
various automatic metrics and human preference evaluations. Our experimental
data, code, and model weights are made publicly available at:
https://github.com/feizc/FluxMusic.Summary
AI-Generated Summary