Ecos Visuales: Un Transformador Unificado y Simple para la Generación Audio-Visual
Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation
May 23, 2024
Autores: Shiqi Yang, Zhi Zhong, Mengjie Zhao, Shusuke Takahashi, Masato Ishii, Takashi Shibuya, Yuki Mitsufuji
cs.AI
Resumen
En los últimos años, con resultados de generación realistas y una amplia gama de aplicaciones personalizadas, los modelos generativos basados en difusión han captado una enorme atención tanto en el ámbito de la generación visual como en el de la generación de audio. En comparación con los avances considerables en la generación de texto a imagen o texto a audio, la investigación en la generación de audio a visual o visual a audio ha sido relativamente lenta. Los métodos recientes de generación audiovisual suelen recurrir a grandes modelos de lenguaje o modelos de difusión componibles. En lugar de diseñar otro modelo gigante para la generación audiovisual, en este artículo damos un paso atrás y mostramos que un transformador generativo simple y ligero, que no ha sido completamente explorado en la generación multimodal, puede lograr resultados excelentes en la generación de imagen a audio. El transformador opera en el espacio discreto de audio y visual de GANs Vector-Quantized, y se entrena en un esquema de desenmascaramiento de ruido. Después del entrenamiento, la guía sin clasificador puede implementarse directamente, logrando un mejor rendimiento sin necesidad de entrenamiento adicional o modificaciones. Dado que el modelo de transformador es simétrico en cuanto a modalidades, también puede implementarse directamente para la generación de audio a imagen y la cogeneración. En los experimentos, demostramos que nuestro método simple supera a los métodos recientes de generación de imagen a audio. Las muestras de audio generadas pueden encontrarse en https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQ.
English
In recent years, with the realistic generation results and a wide range of
personalized applications, diffusion-based generative models gain huge
attention in both visual and audio generation areas. Compared to the
considerable advancements of text2image or text2audio generation, research in
audio2visual or visual2audio generation has been relatively slow. The recent
audio-visual generation methods usually resort to huge large language model or
composable diffusion models. Instead of designing another giant model for
audio-visual generation, in this paper we take a step back showing a simple and
lightweight generative transformer, which is not fully investigated in
multi-modal generation, can achieve excellent results on image2audio
generation. The transformer operates in the discrete audio and visual
Vector-Quantized GAN space, and is trained in the mask denoising manner. After
training, the classifier-free guidance could be deployed off-the-shelf
achieving better performance, without any extra training or modification. Since
the transformer model is modality symmetrical, it could also be directly
deployed for audio2image generation and co-generation. In the experiments, we
show that our simple method surpasses recent image2audio generation methods.
Generated audio samples can be found at
https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQSummary
AI-Generated Summary