FLUX, das Musik spielt
FLUX that Plays Music
September 1, 2024
Autoren: Zhengcong Fei, Mingyuan Fan, Changqian Yu, Junshi Huang
cs.AI
Zusammenfassung
Dieses Paper untersucht eine einfache Erweiterung der auf Diffusion basierenden rektifizierten Fluss-Transformer für die Text-zu-Musik-Generierung, die als FluxMusic bezeichnet wird. Im Allgemeinen übertragen wir zusammen mit dem Design im fortgeschrittenen Flux-Modell es in einen latenten VAE-Raum des Mel-Spektrums. Dies beinhaltet zunächst die Anwendung einer Sequenz unabhängiger Aufmerksamkeit auf den doppelten Text-Musik-Stream, gefolgt von einem gestapelten einzelnen Musik-Stream zur Vorhersage von gereinigten Patches. Wir verwenden mehrere vorab trainierte Text-Encoder, um hinreichend semantische Informationen der Untertitel zu erfassen sowie Flexibilität bei der Inferenz zu ermöglichen. Dazwischen wird grobe textuelle Information in Verbindung mit Zeitstempel-Einbettungen in einem Modulationsmechanismus genutzt, während feinkörnige textuelle Details mit der Musik-Patch-Sequenz als Eingaben konkateniert werden. Durch eine eingehende Studie zeigen wir, dass das Training mit rektifiziertem Fluss und einer optimierten Architektur etablierte Diffusionsmethoden für die Text-zu-Musik-Aufgabe signifikant übertrifft, wie durch verschiedene automatische Metriken und menschliche Präferenzbewertungen belegt wird. Unsere experimentellen Daten, der Code und die Modellgewichte sind öffentlich verfügbar unter: https://github.com/feizc/FluxMusic.
English
This paper explores a simple extension of diffusion-based rectified flow
Transformers for text-to-music generation, termed as FluxMusic. Generally,
along with design in advanced
Fluxhttps://github.com/black-forest-labs/flux model, we transfers it
into a latent VAE space of mel-spectrum. It involves first applying a sequence
of independent attention to the double text-music stream, followed by a stacked
single music stream for denoised patch prediction. We employ multiple
pre-trained text encoders to sufficiently capture caption semantic information
as well as inference flexibility. In between, coarse textual information, in
conjunction with time step embeddings, is utilized in a modulation mechanism,
while fine-grained textual details are concatenated with the music patch
sequence as inputs. Through an in-depth study, we demonstrate that rectified
flow training with an optimized architecture significantly outperforms
established diffusion methods for the text-to-music task, as evidenced by
various automatic metrics and human preference evaluations. Our experimental
data, code, and model weights are made publicly available at:
https://github.com/feizc/FluxMusic.Summary
AI-Generated Summary