TangoFlux : Génération de texte en audio super rapide et fidèle avec appariement de flux et optimisation des préférences classées par applaudissements
TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization
December 30, 2024
Auteurs: Chia-Yu Hung, Navonil Majumder, Zhifeng Kong, Ambuj Mehrish, Rafael Valle, Bryan Catanzaro, Soujanya Poria
cs.AI
Résumé
Nous présentons TangoFlux, un modèle génératif Texte-vers-Audio (TTA) efficace avec 515 millions de paramètres, capable de générer jusqu'à 30 secondes de son à 44,1 kHz en seulement 3,7 secondes sur un seul GPU A40. Un défi clé dans l'alignement des modèles TTA réside dans la difficulté de créer des paires de préférences, car le TTA ne dispose pas de mécanismes structurés tels que des récompenses vérifiables ou des réponses de référence disponibles pour les Grands Modèles de Langage (LLM). Pour y remédier, nous proposons l'Optimisation de Préférence Classée par CLAP (CRPO), un cadre novateur qui génère et optimise de manière itérative des données de préférence pour améliorer l'alignement du TTA. Nous démontrons que l'ensemble de données de préférences audio généré à l'aide de CRPO surpasse les alternatives existantes. Avec ce cadre, TangoFlux atteint des performances de pointe à la fois sur des critères objectifs et subjectifs. Nous mettons tout le code et les modèles en open source pour soutenir de futures recherches dans la génération TTA.
English
We introduce TangoFlux, an efficient Text-to-Audio (TTA) generative model
with 515M parameters, capable of generating up to 30 seconds of 44.1kHz audio
in just 3.7 seconds on a single A40 GPU. A key challenge in aligning TTA models
lies in the difficulty of creating preference pairs, as TTA lacks structured
mechanisms like verifiable rewards or gold-standard answers available for Large
Language Models (LLMs). To address this, we propose CLAP-Ranked Preference
Optimization (CRPO), a novel framework that iteratively generates and optimizes
preference data to enhance TTA alignment. We demonstrate that the audio
preference dataset generated using CRPO outperforms existing alternatives. With
this framework, TangoFlux achieves state-of-the-art performance across both
objective and subjective benchmarks. We open source all code and models to
support further research in TTA generation.Summary
AI-Generated Summary