CLIPSonic: Text-zu-Audio-Synthese mit unmarkierten Videos und vortrainierten Sprach-Vision-Modellen

Zusammenfassung

Aktuelle Arbeiten haben die Text-zu-Audio-Synthese unter Verwendung großer Mengen gepaarter Text-Audio-Daten untersucht. Allerdings können Audioaufnahmen mit hochwertigen Textannotationen schwer zu beschaffen sein. In dieser Arbeit nähern wir uns der Text-zu-Audio-Synthese mithilfe ungelabelter Videos und vortrainierter Sprach-Bild-Modelle. Wir schlagen vor, die gewünschte Text-Audio-Korrespondenz zu erlernen, indem wir die visuelle Modalität als Brücke nutzen. Wir trainieren ein bedingtes Diffusionsmodell, um den Audiospur eines Videos zu generieren, basierend auf einem Videobild, das durch ein vortrainiertes kontrastives Sprach-Bild-Pretraining (CLIP)-Modell kodiert wurde. Zum Testzeitpunkt untersuchen wir zunächst die Durchführung eines Zero-Shot-Modalitätswechsels und konditionieren das Diffusionsmodell mit einer CLIP-kodierten Textanfrage. Allerdings beobachten wir einen deutlichen Leistungsabfall im Vergleich zu Bildanfragen. Um diese Lücke zu schließen, setzen wir zusätzlich ein vortrainiertes Diffusions-Prior-Modell ein, um eine CLIP-Bildeinbettung basierend auf einer CLIP-Texteinbettung zu generieren. Unsere Ergebnisse zeigen die Effektivität der vorgeschlagenen Methode und dass das vortrainierte Diffusions-Prior-Modell die Lücke beim Modalitätswechsel verringern kann. Während wir uns auf die Text-zu-Audio-Synthese konzentrieren, kann das vorgeschlagene Modell auch Audio aus Bildanfragen generieren und zeigt in einem subjektiven Hörtest eine wettbewerbsfähige Leistung im Vergleich zu einem modernen Bild-zu-Audio-Synthese-Modell. Diese Studie bietet eine neue Richtung zur Annäherung an die Text-zu-Audio-Synthese, die die natürlich vorkommende Audio-Visuelle-Korrespondenz in Videos und die Leistungsfähigkeit vortrainierter Sprach-Bild-Modelle nutzt.

English

Recent work has studied text-to-audio synthesis using large amounts of paired text-audio data. However, audio recordings with high-quality text annotations can be difficult to acquire. In this work, we approach text-to-audio synthesis using unlabeled videos and pretrained language-vision models. We propose to learn the desired text-audio correspondence by leveraging the visual modality as a bridge. We train a conditional diffusion model to generate the audio track of a video, given a video frame encoded by a pretrained contrastive language-image pretraining (CLIP) model. At test time, we first explore performing a zero-shot modality transfer and condition the diffusion model with a CLIP-encoded text query. However, we observe a noticeable performance drop with respect to image queries. To close this gap, we further adopt a pretrained diffusion prior model to generate a CLIP image embedding given a CLIP text embedding. Our results show the effectiveness of the proposed method, and that the pretrained diffusion prior can reduce the modality transfer gap. While we focus on text-to-audio synthesis, the proposed model can also generate audio from image queries, and it shows competitive performance against a state-of-the-art image-to-audio synthesis model in a subjective listening test. This study offers a new direction of approaching text-to-audio synthesis that leverages the naturally-occurring audio-visual correspondence in videos and the power of pretrained language-vision models.

CLIPSonic: Text-zu-Audio-Synthese mit unmarkierten Videos und vortrainierten Sprach-Vision-Modellen

CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained Language-Vision Models

Zusammenfassung

Support