CLIPSonic : Synthèse audio à partir de texte avec des vidéos non annotées et des modèles pré-entraînés langage-vision

Résumé

Des travaux récents ont étudié la synthèse texte-audio en utilisant de grandes quantités de données texte-audio appariées. Cependant, les enregistrements audio accompagnés d'annotations textuelles de haute qualité peuvent être difficiles à acquérir. Dans ce travail, nous abordons la synthèse texte-audio en utilisant des vidéos non annotées et des modèles pré-entraînés de langage-vision. Nous proposons d'apprendre la correspondance texte-audio souhaitée en exploitant la modalité visuelle comme pont. Nous entraînons un modèle de diffusion conditionnel pour générer la piste audio d'une vidéo, étant donné une image de la vidéo encodée par un modèle pré-entraîné de préapprentissage contrastif langage-image (CLIP). Au moment du test, nous explorons d'abord un transfert de modalité zero-shot en conditionnant le modèle de diffusion avec une requête texte encodée par CLIP. Cependant, nous observons une baisse notable des performances par rapport aux requêtes d'images. Pour combler cet écart, nous adoptons en outre un modèle de diffusion prior pré-entraîné pour générer un embedding d'image CLIP à partir d'un embedding de texte CLIP. Nos résultats montrent l'efficacité de la méthode proposée, et que le modèle de diffusion prior pré-entraîné peut réduire l'écart de transfert de modalité. Bien que nous nous concentrions sur la synthèse texte-audio, le modèle proposé peut également générer de l'audio à partir de requêtes d'images, et il montre des performances compétitives par rapport à un modèle de pointe de synthèse image-audio dans un test d'écoute subjective. Cette étude offre une nouvelle direction pour aborder la synthèse texte-audio en exploitant la correspondance audio-visuelle naturellement présente dans les vidéos et la puissance des modèles pré-entraînés de langage-vision.

English

Recent work has studied text-to-audio synthesis using large amounts of paired text-audio data. However, audio recordings with high-quality text annotations can be difficult to acquire. In this work, we approach text-to-audio synthesis using unlabeled videos and pretrained language-vision models. We propose to learn the desired text-audio correspondence by leveraging the visual modality as a bridge. We train a conditional diffusion model to generate the audio track of a video, given a video frame encoded by a pretrained contrastive language-image pretraining (CLIP) model. At test time, we first explore performing a zero-shot modality transfer and condition the diffusion model with a CLIP-encoded text query. However, we observe a noticeable performance drop with respect to image queries. To close this gap, we further adopt a pretrained diffusion prior model to generate a CLIP image embedding given a CLIP text embedding. Our results show the effectiveness of the proposed method, and that the pretrained diffusion prior can reduce the modality transfer gap. While we focus on text-to-audio synthesis, the proposed model can also generate audio from image queries, and it shows competitive performance against a state-of-the-art image-to-audio synthesis model in a subjective listening test. This study offers a new direction of approaching text-to-audio synthesis that leverages the naturally-occurring audio-visual correspondence in videos and the power of pretrained language-vision models.

CLIPSonic : Synthèse audio à partir de texte avec des vidéos non annotées et des modèles pré-entraînés langage-vision

CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained Language-Vision Models

Résumé

Support