CLIPSonic : Synthèse audio à partir de texte avec des vidéos non annotées et des modèles pré-entraînés langage-vision
CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained Language-Vision Models
June 16, 2023
Auteurs: Hao-Wen Dong, Xiaoyu Liu, Jordi Pons, Gautam Bhattacharya, Santiago Pascual, Joan Serrà, Taylor Berg-Kirkpatrick, Julian McAuley
cs.AI
Résumé
Des travaux récents ont étudié la synthèse texte-audio en utilisant de grandes quantités de données texte-audio appariées. Cependant, les enregistrements audio accompagnés d'annotations textuelles de haute qualité peuvent être difficiles à acquérir. Dans ce travail, nous abordons la synthèse texte-audio en utilisant des vidéos non annotées et des modèles pré-entraînés de langage-vision. Nous proposons d'apprendre la correspondance texte-audio souhaitée en exploitant la modalité visuelle comme pont. Nous entraînons un modèle de diffusion conditionnel pour générer la piste audio d'une vidéo, étant donné une image de la vidéo encodée par un modèle pré-entraîné de préapprentissage contrastif langage-image (CLIP). Au moment du test, nous explorons d'abord un transfert de modalité zero-shot en conditionnant le modèle de diffusion avec une requête texte encodée par CLIP. Cependant, nous observons une baisse notable des performances par rapport aux requêtes d'images. Pour combler cet écart, nous adoptons en outre un modèle de diffusion prior pré-entraîné pour générer un embedding d'image CLIP à partir d'un embedding de texte CLIP. Nos résultats montrent l'efficacité de la méthode proposée, et que le modèle de diffusion prior pré-entraîné peut réduire l'écart de transfert de modalité. Bien que nous nous concentrions sur la synthèse texte-audio, le modèle proposé peut également générer de l'audio à partir de requêtes d'images, et il montre des performances compétitives par rapport à un modèle de pointe de synthèse image-audio dans un test d'écoute subjective. Cette étude offre une nouvelle direction pour aborder la synthèse texte-audio en exploitant la correspondance audio-visuelle naturellement présente dans les vidéos et la puissance des modèles pré-entraînés de langage-vision.
English
Recent work has studied text-to-audio synthesis using large amounts of paired
text-audio data. However, audio recordings with high-quality text annotations
can be difficult to acquire. In this work, we approach text-to-audio synthesis
using unlabeled videos and pretrained language-vision models. We propose to
learn the desired text-audio correspondence by leveraging the visual modality
as a bridge. We train a conditional diffusion model to generate the audio track
of a video, given a video frame encoded by a pretrained contrastive
language-image pretraining (CLIP) model. At test time, we first explore
performing a zero-shot modality transfer and condition the diffusion model with
a CLIP-encoded text query. However, we observe a noticeable performance drop
with respect to image queries. To close this gap, we further adopt a pretrained
diffusion prior model to generate a CLIP image embedding given a CLIP text
embedding. Our results show the effectiveness of the proposed method, and that
the pretrained diffusion prior can reduce the modality transfer gap. While we
focus on text-to-audio synthesis, the proposed model can also generate audio
from image queries, and it shows competitive performance against a
state-of-the-art image-to-audio synthesis model in a subjective listening test.
This study offers a new direction of approaching text-to-audio synthesis that
leverages the naturally-occurring audio-visual correspondence in videos and the
power of pretrained language-vision models.