ChatPaper.aiChatPaper

TangoFlux: Supersnelle en Nauwkeurige Tekst-naar-Audio Generatie met Flow-Matching en Voorkeursoptimalisatie op Basis van Klappen-Rangschikking

TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

December 30, 2024
Auteurs: Chia-Yu Hung, Navonil Majumder, Zhifeng Kong, Ambuj Mehrish, Rafael Valle, Bryan Catanzaro, Soujanya Poria
cs.AI

Samenvatting

We introduceren TangoFlux, een efficiënt Tekst-naar-Audio (TNA) generatief model met 515 miljoen parameters, in staat om tot 30 seconden 44,1 kHz audio te genereren in slechts 3,7 seconden op een enkele A40 GPU. Een belangrijke uitdaging bij het afstemmen van TNA-modellen ligt in de moeilijkheid om voorkeursparen te creëren, aangezien TNA geen gestructureerde mechanismen heeft zoals controleerbare beloningen of goudstandaard antwoorden die beschikbaar zijn voor Grote Taalmodellen (GTM's). Om dit aan te pakken, stellen we CLAP-Gerangschikte VoorkeursOptimalisatie (CRVO) voor, een nieuw raamwerk dat iteratief voorkeursgegevens genereert en optimaliseert om de afstemming van TNA te verbeteren. We tonen aan dat de audiopreferentiedataset die is gegenereerd met CRVO beter presteert dan bestaande alternatieven. Met dit raamwerk behaalt TangoFlux state-of-the-art prestaties op zowel objectieve als subjectieve benchmarks. We stellen alle code en modellen open source om verder onderzoek naar TNA-generatie te ondersteunen.
English
We introduce TangoFlux, an efficient Text-to-Audio (TTA) generative model with 515M parameters, capable of generating up to 30 seconds of 44.1kHz audio in just 3.7 seconds on a single A40 GPU. A key challenge in aligning TTA models lies in the difficulty of creating preference pairs, as TTA lacks structured mechanisms like verifiable rewards or gold-standard answers available for Large Language Models (LLMs). To address this, we propose CLAP-Ranked Preference Optimization (CRPO), a novel framework that iteratively generates and optimizes preference data to enhance TTA alignment. We demonstrate that the audio preference dataset generated using CRPO outperforms existing alternatives. With this framework, TangoFlux achieves state-of-the-art performance across both objective and subjective benchmarks. We open source all code and models to support further research in TTA generation.

Summary

AI-Generated Summary

PDF244December 31, 2024