CLIPSonic: Text-zu-Audio-Synthese mit unmarkierten Videos und vortrainierten Sprach-Vision-Modellen
CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained Language-Vision Models
June 16, 2023
Autoren: Hao-Wen Dong, Xiaoyu Liu, Jordi Pons, Gautam Bhattacharya, Santiago Pascual, Joan Serrà, Taylor Berg-Kirkpatrick, Julian McAuley
cs.AI
Zusammenfassung
Aktuelle Arbeiten haben die Text-zu-Audio-Synthese unter Verwendung großer Mengen gepaarter Text-Audio-Daten untersucht. Allerdings können Audioaufnahmen mit hochwertigen Textannotationen schwer zu beschaffen sein. In dieser Arbeit nähern wir uns der Text-zu-Audio-Synthese mithilfe ungelabelter Videos und vortrainierter Sprach-Bild-Modelle. Wir schlagen vor, die gewünschte Text-Audio-Korrespondenz zu erlernen, indem wir die visuelle Modalität als Brücke nutzen. Wir trainieren ein bedingtes Diffusionsmodell, um den Audiospur eines Videos zu generieren, basierend auf einem Videobild, das durch ein vortrainiertes kontrastives Sprach-Bild-Pretraining (CLIP)-Modell kodiert wurde. Zum Testzeitpunkt untersuchen wir zunächst die Durchführung eines Zero-Shot-Modalitätswechsels und konditionieren das Diffusionsmodell mit einer CLIP-kodierten Textanfrage. Allerdings beobachten wir einen deutlichen Leistungsabfall im Vergleich zu Bildanfragen. Um diese Lücke zu schließen, setzen wir zusätzlich ein vortrainiertes Diffusions-Prior-Modell ein, um eine CLIP-Bildeinbettung basierend auf einer CLIP-Texteinbettung zu generieren. Unsere Ergebnisse zeigen die Effektivität der vorgeschlagenen Methode und dass das vortrainierte Diffusions-Prior-Modell die Lücke beim Modalitätswechsel verringern kann. Während wir uns auf die Text-zu-Audio-Synthese konzentrieren, kann das vorgeschlagene Modell auch Audio aus Bildanfragen generieren und zeigt in einem subjektiven Hörtest eine wettbewerbsfähige Leistung im Vergleich zu einem modernen Bild-zu-Audio-Synthese-Modell. Diese Studie bietet eine neue Richtung zur Annäherung an die Text-zu-Audio-Synthese, die die natürlich vorkommende Audio-Visuelle-Korrespondenz in Videos und die Leistungsfähigkeit vortrainierter Sprach-Bild-Modelle nutzt.
English
Recent work has studied text-to-audio synthesis using large amounts of paired
text-audio data. However, audio recordings with high-quality text annotations
can be difficult to acquire. In this work, we approach text-to-audio synthesis
using unlabeled videos and pretrained language-vision models. We propose to
learn the desired text-audio correspondence by leveraging the visual modality
as a bridge. We train a conditional diffusion model to generate the audio track
of a video, given a video frame encoded by a pretrained contrastive
language-image pretraining (CLIP) model. At test time, we first explore
performing a zero-shot modality transfer and condition the diffusion model with
a CLIP-encoded text query. However, we observe a noticeable performance drop
with respect to image queries. To close this gap, we further adopt a pretrained
diffusion prior model to generate a CLIP image embedding given a CLIP text
embedding. Our results show the effectiveness of the proposed method, and that
the pretrained diffusion prior can reduce the modality transfer gap. While we
focus on text-to-audio synthesis, the proposed model can also generate audio
from image queries, and it shows competitive performance against a
state-of-the-art image-to-audio synthesis model in a subjective listening test.
This study offers a new direction of approaching text-to-audio synthesis that
leverages the naturally-occurring audio-visual correspondence in videos and the
power of pretrained language-vision models.