CLIPSonic: Síntesis de Audio a partir de Texto utilizando Videos sin Etiquetar y Modelos Preentrenados de Lenguaje-Visión
CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained Language-Vision Models
June 16, 2023
Autores: Hao-Wen Dong, Xiaoyu Liu, Jordi Pons, Gautam Bhattacharya, Santiago Pascual, Joan Serrà, Taylor Berg-Kirkpatrick, Julian McAuley
cs.AI
Resumen
Trabajos recientes han estudiado la síntesis de texto a audio utilizando grandes cantidades de datos emparejados de texto y audio. Sin embargo, las grabaciones de audio con anotaciones de texto de alta calidad pueden ser difíciles de adquirir. En este trabajo, abordamos la síntesis de texto a audio utilizando videos no etiquetados y modelos preentrenados de lenguaje-visión. Proponemos aprender la correspondencia deseada entre texto y audio aprovechando la modalidad visual como puente. Entrenamos un modelo de difusión condicional para generar la pista de audio de un video, dado un fotograma del video codificado por un modelo preentrenado de aprendizaje contrastivo de lenguaje-imagen (CLIP). En la fase de prueba, primero exploramos realizar una transferencia de modalidad zero-shot y condicionamos el modelo de difusión con una consulta de texto codificada por CLIP. Sin embargo, observamos una caída notable en el rendimiento en comparación con las consultas de imagen. Para cerrar esta brecha, adoptamos además un modelo de difusión previa preentrenado para generar una incrustación de imagen CLIP dada una incrustación de texto CLIP. Nuestros resultados muestran la efectividad del método propuesto y que el modelo de difusión previa preentrenado puede reducir la brecha de transferencia de modalidad. Si bien nos enfocamos en la síntesis de texto a audio, el modelo propuesto también puede generar audio a partir de consultas de imagen y muestra un rendimiento competitivo frente a un modelo de última generación de síntesis de imagen a audio en una prueba de escucha subjetiva. Este estudio ofrece una nueva dirección para abordar la síntesis de texto a audio que aprovecha la correspondencia audio-visual naturalmente presente en los videos y el poder de los modelos preentrenados de lenguaje-visión.
English
Recent work has studied text-to-audio synthesis using large amounts of paired
text-audio data. However, audio recordings with high-quality text annotations
can be difficult to acquire. In this work, we approach text-to-audio synthesis
using unlabeled videos and pretrained language-vision models. We propose to
learn the desired text-audio correspondence by leveraging the visual modality
as a bridge. We train a conditional diffusion model to generate the audio track
of a video, given a video frame encoded by a pretrained contrastive
language-image pretraining (CLIP) model. At test time, we first explore
performing a zero-shot modality transfer and condition the diffusion model with
a CLIP-encoded text query. However, we observe a noticeable performance drop
with respect to image queries. To close this gap, we further adopt a pretrained
diffusion prior model to generate a CLIP image embedding given a CLIP text
embedding. Our results show the effectiveness of the proposed method, and that
the pretrained diffusion prior can reduce the modality transfer gap. While we
focus on text-to-audio synthesis, the proposed model can also generate audio
from image queries, and it shows competitive performance against a
state-of-the-art image-to-audio synthesis model in a subjective listening test.
This study offers a new direction of approaching text-to-audio synthesis that
leverages the naturally-occurring audio-visual correspondence in videos and the
power of pretrained language-vision models.