TangoFlux : Génération de texte en audio super rapide et fidèle avec appariement de flux et optimisation des préférences classées par applaudissements

Résumé

Nous présentons TangoFlux, un modèle génératif Texte-vers-Audio (TTA) efficace avec 515 millions de paramètres, capable de générer jusqu'à 30 secondes de son à 44,1 kHz en seulement 3,7 secondes sur un seul GPU A40. Un défi clé dans l'alignement des modèles TTA réside dans la difficulté de créer des paires de préférences, car le TTA ne dispose pas de mécanismes structurés tels que des récompenses vérifiables ou des réponses de référence disponibles pour les Grands Modèles de Langage (LLM). Pour y remédier, nous proposons l'Optimisation de Préférence Classée par CLAP (CRPO), un cadre novateur qui génère et optimise de manière itérative des données de préférence pour améliorer l'alignement du TTA. Nous démontrons que l'ensemble de données de préférences audio généré à l'aide de CRPO surpasse les alternatives existantes. Avec ce cadre, TangoFlux atteint des performances de pointe à la fois sur des critères objectifs et subjectifs. Nous mettons tout le code et les modèles en open source pour soutenir de futures recherches dans la génération TTA.

English

We introduce TangoFlux, an efficient Text-to-Audio (TTA) generative model with 515M parameters, capable of generating up to 30 seconds of 44.1kHz audio in just 3.7 seconds on a single A40 GPU. A key challenge in aligning TTA models lies in the difficulty of creating preference pairs, as TTA lacks structured mechanisms like verifiable rewards or gold-standard answers available for Large Language Models (LLMs). To address this, we propose CLAP-Ranked Preference Optimization (CRPO), a novel framework that iteratively generates and optimizes preference data to enhance TTA alignment. We demonstrate that the audio preference dataset generated using CRPO outperforms existing alternatives. With this framework, TangoFlux achieves state-of-the-art performance across both objective and subjective benchmarks. We open source all code and models to support further research in TTA generation.