Échos Visuels : Un Transformeur Unifié Simple pour la Génération Audio-Visuelle
Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation
May 23, 2024
Auteurs: Shiqi Yang, Zhi Zhong, Mengjie Zhao, Shusuke Takahashi, Masato Ishii, Takashi Shibuya, Yuki Mitsufuji
cs.AI
Résumé
Ces dernières années, avec des résultats de génération réalistes et une large gamme d'applications personnalisées, les modèles génératifs basés sur la diffusion ont suscité une attention considérable dans les domaines de la génération visuelle et audio. Par rapport aux avancées significatives dans la génération texte-image ou texte-audio, la recherche dans la génération audio-visuelle ou visuelle-audio a été relativement lente. Les méthodes récentes de génération audio-visuelle recourent généralement à d'énormes modèles de langage ou à des modèles de diffusion composables. Au lieu de concevoir un autre modèle géant pour la génération audio-visuelle, dans cet article, nous prenons du recul en montrant qu'un simple et léger transformateur génératif, qui n'a pas été pleinement exploré dans la génération multi-modale, peut obtenir d'excellents résultats dans la génération image-audio. Le transformateur opère dans l'espace discret audio et visuel du Vector-Quantized GAN, et est entraîné selon une méthode de débruitage masqué. Après l'entraînement, la guidance sans classificateur peut être déployée directement pour obtenir de meilleures performances, sans aucun entraînement ou modification supplémentaire. Comme le modèle de transformateur est symétrique en termes de modalités, il peut également être directement déployé pour la génération audio-image et la co-génération. Dans les expériences, nous montrons que notre méthode simple surpasse les méthodes récentes de génération image-audio. Des échantillons audio générés peuvent être consultés à l'adresse suivante : https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQ.
English
In recent years, with the realistic generation results and a wide range of
personalized applications, diffusion-based generative models gain huge
attention in both visual and audio generation areas. Compared to the
considerable advancements of text2image or text2audio generation, research in
audio2visual or visual2audio generation has been relatively slow. The recent
audio-visual generation methods usually resort to huge large language model or
composable diffusion models. Instead of designing another giant model for
audio-visual generation, in this paper we take a step back showing a simple and
lightweight generative transformer, which is not fully investigated in
multi-modal generation, can achieve excellent results on image2audio
generation. The transformer operates in the discrete audio and visual
Vector-Quantized GAN space, and is trained in the mask denoising manner. After
training, the classifier-free guidance could be deployed off-the-shelf
achieving better performance, without any extra training or modification. Since
the transformer model is modality symmetrical, it could also be directly
deployed for audio2image generation and co-generation. In the experiments, we
show that our simple method surpasses recent image2audio generation methods.
Generated audio samples can be found at
https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQSummary
AI-Generated Summary