CLIPSonic: Síntesis de Audio a partir de Texto utilizando Videos sin Etiquetar y Modelos Preentrenados de Lenguaje-Visión

Resumen

Trabajos recientes han estudiado la síntesis de texto a audio utilizando grandes cantidades de datos emparejados de texto y audio. Sin embargo, las grabaciones de audio con anotaciones de texto de alta calidad pueden ser difíciles de adquirir. En este trabajo, abordamos la síntesis de texto a audio utilizando videos no etiquetados y modelos preentrenados de lenguaje-visión. Proponemos aprender la correspondencia deseada entre texto y audio aprovechando la modalidad visual como puente. Entrenamos un modelo de difusión condicional para generar la pista de audio de un video, dado un fotograma del video codificado por un modelo preentrenado de aprendizaje contrastivo de lenguaje-imagen (CLIP). En la fase de prueba, primero exploramos realizar una transferencia de modalidad zero-shot y condicionamos el modelo de difusión con una consulta de texto codificada por CLIP. Sin embargo, observamos una caída notable en el rendimiento en comparación con las consultas de imagen. Para cerrar esta brecha, adoptamos además un modelo de difusión previa preentrenado para generar una incrustación de imagen CLIP dada una incrustación de texto CLIP. Nuestros resultados muestran la efectividad del método propuesto y que el modelo de difusión previa preentrenado puede reducir la brecha de transferencia de modalidad. Si bien nos enfocamos en la síntesis de texto a audio, el modelo propuesto también puede generar audio a partir de consultas de imagen y muestra un rendimiento competitivo frente a un modelo de última generación de síntesis de imagen a audio en una prueba de escucha subjetiva. Este estudio ofrece una nueva dirección para abordar la síntesis de texto a audio que aprovecha la correspondencia audio-visual naturalmente presente en los videos y el poder de los modelos preentrenados de lenguaje-visión.

English

Recent work has studied text-to-audio synthesis using large amounts of paired text-audio data. However, audio recordings with high-quality text annotations can be difficult to acquire. In this work, we approach text-to-audio synthesis using unlabeled videos and pretrained language-vision models. We propose to learn the desired text-audio correspondence by leveraging the visual modality as a bridge. We train a conditional diffusion model to generate the audio track of a video, given a video frame encoded by a pretrained contrastive language-image pretraining (CLIP) model. At test time, we first explore performing a zero-shot modality transfer and condition the diffusion model with a CLIP-encoded text query. However, we observe a noticeable performance drop with respect to image queries. To close this gap, we further adopt a pretrained diffusion prior model to generate a CLIP image embedding given a CLIP text embedding. Our results show the effectiveness of the proposed method, and that the pretrained diffusion prior can reduce the modality transfer gap. While we focus on text-to-audio synthesis, the proposed model can also generate audio from image queries, and it shows competitive performance against a state-of-the-art image-to-audio synthesis model in a subjective listening test. This study offers a new direction of approaching text-to-audio synthesis that leverages the naturally-occurring audio-visual correspondence in videos and the power of pretrained language-vision models.

CLIPSonic: Síntesis de Audio a partir de Texto utilizando Videos sin Etiquetar y Modelos Preentrenados de Lenguaje-Visión

CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained Language-Vision Models

Resumen

Support