Améliorer la contrôlabilité de la génération audio par régularisation de similarité des représentations
Enhance audio generation controllability through representation similarity regularization
September 15, 2023
Auteurs: Yangyang Shi, Gael Le Lan, Varun Nagaraja, Zhaoheng Ni, Xinhao Mei, Ernie Chang, Forrest Iandola, Yang Liu, Vikas Chandra
cs.AI
Résumé
Cet article présente une approche innovante pour améliorer le contrôle de la génération audio en mettant l'accent sur l'alignement entre les représentations audio et textuelles lors de l'entraînement du modèle. Dans le contexte de la génération audio basée sur des modèles de langage, le modèle exploite à la fois des représentations textuelles et audio pour prédire les tokens audio suivants. Cependant, la configuration actuelle ne dispose pas de régularisation explicite pour garantir l'alignement entre la représentation textuelle choisie et les prédictions du modèle de langage. Notre proposition consiste à intégrer une régularisation des représentations audio et textuelles, en particulier pendant la phase de guidage sans classifieur (CFG), où la condition textuelle est exclue de l'attention croisée lors de l'entraînement du modèle de langage. L'objectif de cette régularisation des représentations est de minimiser les écarts de similarité entre l'audio et le texte par rapport aux autres échantillons du même lot d'entraînement. Les résultats expérimentaux sur des tâches de génération audio et musicale montrent que nos méthodes proposées améliorent les métriques objectives pour la génération audio et musicale, ainsi que la perception humaine pour la génération audio.
English
This paper presents an innovative approach to enhance control over audio
generation by emphasizing the alignment between audio and text representations
during model training. In the context of language model-based audio generation,
the model leverages input from both textual and audio token representations to
predict subsequent audio tokens. However, the current configuration lacks
explicit regularization to ensure the alignment between the chosen text
representation and the language model's predictions. Our proposal involves the
incorporation of audio and text representation regularization, particularly
during the classifier-free guidance (CFG) phase, where the text condition is
excluded from cross attention during language model training. The aim of this
proposed representation regularization is to minimize discrepancies in audio
and text similarity compared to other samples within the same training batch.
Experimental results on both music and audio generation tasks demonstrate that
our proposed methods lead to improvements in objective metrics for both audio
and music generation, as well as an enhancement in the human perception for
audio generation.