ChatPaper.aiChatPaper

ПОТОК, Который Играет Музыку

FLUX that Plays Music

September 1, 2024
Авторы: Zhengcong Fei, Mingyuan Fan, Changqian Yu, Junshi Huang
cs.AI

Аннотация

Данный документ исследует простое расширение диффузионного потока с прямым выпрямлением для генерации музыки из текста, названное FluxMusic. В общем, вместе с разработкой в продвинутой модели Flux, мы переносим ее в латентное пространство VAE мел-спектра. Это включает в себя первоначальное применение последовательности независимого внимания к двойному потоку текста-музыки, за которым следует упорядоченный одиночный поток музыки для предсказания зашумленного патча. Мы используем несколько предварительно обученных текстовых кодировщиков для достаточного улавливания семантической информации подписи, а также гибкости вывода. Между тем, грубая текстовая информация, в сочетании с эмбеддингами временных шагов, используется в механизме модуляции, в то время как детали текста более низкого уровня конкатенируются с последовательностью музыкальных патчей в качестве входных данных. Через глубокое исследование мы демонстрируем, что обучение с прямым выпрямлением с оптимизированной архитектурой значительно превосходит установленные методы диффузии для задачи текст-музыка, как показывают различные автоматические метрики и оценки предпочтений человека. Наши экспериментальные данные, код и веса модели доступны публично по адресу: https://github.com/feizc/FluxMusic.
English
This paper explores a simple extension of diffusion-based rectified flow Transformers for text-to-music generation, termed as FluxMusic. Generally, along with design in advanced Fluxhttps://github.com/black-forest-labs/flux model, we transfers it into a latent VAE space of mel-spectrum. It involves first applying a sequence of independent attention to the double text-music stream, followed by a stacked single music stream for denoised patch prediction. We employ multiple pre-trained text encoders to sufficiently capture caption semantic information as well as inference flexibility. In between, coarse textual information, in conjunction with time step embeddings, is utilized in a modulation mechanism, while fine-grained textual details are concatenated with the music patch sequence as inputs. Through an in-depth study, we demonstrate that rectified flow training with an optimized architecture significantly outperforms established diffusion methods for the text-to-music task, as evidenced by various automatic metrics and human preference evaluations. Our experimental data, code, and model weights are made publicly available at: https://github.com/feizc/FluxMusic.

Summary

AI-Generated Summary

PDF342November 16, 2024