ChatPaper.aiChatPaper

Visuelle Echos: Ein einfacher vereinheitlichter Transformer für die Audio-Visuelle Generierung

Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation

May 23, 2024
Autoren: Shiqi Yang, Zhi Zhong, Mengjie Zhao, Shusuke Takahashi, Masato Ishii, Takashi Shibuya, Yuki Mitsufuji
cs.AI

Zusammenfassung

In den letzten Jahren haben diffusion-basierte generative Modelle aufgrund realistischer Generierungsergebnisse und einer Vielzahl von personalisierten Anwendungen sowohl im visuellen als auch im auditiven Generierungsbereich enorme Aufmerksamkeit erregt. Im Vergleich zu den beträchtlichen Fortschritten bei der Text-zu-Bild- oder Text-zu-Audio-Generierung verlief die Forschung zur Audio-zu-Video- oder Video-zu-Audio-Generierung relativ langsam. Die aktuellen audiovisuellen Generierungsmethoden greifen in der Regel auf riesige Sprachmodelle oder zusammensetzbare Diffusionsmodelle zurück. Anstatt ein weiteres riesiges Modell für die Audio-Visual-Generierung zu entwerfen, zeigen wir in diesem Papier einen Schritt zurück, indem wir einen einfachen und leichtgewichtigen generativen Transformer präsentieren, der in der multimodalen Generierung noch nicht vollständig erforscht wurde und hervorragende Ergebnisse in der Bild-zu-Audio-Generierung erzielen kann. Der Transformer arbeitet im diskreten Audio- und visuellen Vektor-Quantized-GAN-Raum und wird in maskenbasiertem Rauschunterdrückungsverfahren trainiert. Nach dem Training kann die leitlinienfreie Steuerung sofort eingesetzt werden, um bessere Leistungen zu erzielen, ohne zusätzliches Training oder Änderungen. Da das Transformer-Modell modalitätssymmetrisch ist, kann es auch direkt für die Audio-zu-Bild-Generierung und Ko-Generierung eingesetzt werden. In den Experimenten zeigen wir, dass unsere einfache Methode aktuelle Bild-zu-Audio-Generierungsmethoden übertrifft. Generierte Audio-Beispiele finden Sie unter https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQ.
English
In recent years, with the realistic generation results and a wide range of personalized applications, diffusion-based generative models gain huge attention in both visual and audio generation areas. Compared to the considerable advancements of text2image or text2audio generation, research in audio2visual or visual2audio generation has been relatively slow. The recent audio-visual generation methods usually resort to huge large language model or composable diffusion models. Instead of designing another giant model for audio-visual generation, in this paper we take a step back showing a simple and lightweight generative transformer, which is not fully investigated in multi-modal generation, can achieve excellent results on image2audio generation. The transformer operates in the discrete audio and visual Vector-Quantized GAN space, and is trained in the mask denoising manner. After training, the classifier-free guidance could be deployed off-the-shelf achieving better performance, without any extra training or modification. Since the transformer model is modality symmetrical, it could also be directly deployed for audio2image generation and co-generation. In the experiments, we show that our simple method surpasses recent image2audio generation methods. Generated audio samples can be found at https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQ

Summary

AI-Generated Summary

PDF141December 15, 2024