TangoFlux : Génération de texte en audio super rapide et fidèle avec appariement de flux et optimisation des préférences classées par applaudissementsTangoFlux: Super Fast and Faithful Text to Audio Generation with Flow
Matching and Clap-Ranked Preference Optimization
Nous présentons TangoFlux, un modèle génératif Texte-vers-Audio (TTA) efficace avec 515 millions de paramètres, capable de générer jusqu'à 30 secondes de son à 44,1 kHz en seulement 3,7 secondes sur un seul GPU A40. Un défi clé dans l'alignement des modèles TTA réside dans la difficulté de créer des paires de préférences, car le TTA ne dispose pas de mécanismes structurés tels que des récompenses vérifiables ou des réponses de référence disponibles pour les Grands Modèles de Langage (LLM). Pour y remédier, nous proposons l'Optimisation de Préférence Classée par CLAP (CRPO), un cadre novateur qui génère et optimise de manière itérative des données de préférence pour améliorer l'alignement du TTA. Nous démontrons que l'ensemble de données de préférences audio généré à l'aide de CRPO surpasse les alternatives existantes. Avec ce cadre, TangoFlux atteint des performances de pointe à la fois sur des critères objectifs et subjectifs. Nous mettons tout le code et les modèles en open source pour soutenir de futures recherches dans la génération TTA.