ChatPaper.aiChatPaper

Visuele Echo's: Een Eenvoudige Geïntegreerde Transformer voor Audio-Visuele Generatie

Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation

May 23, 2024
Auteurs: Shiqi Yang, Zhi Zhong, Mengjie Zhao, Shusuke Takahashi, Masato Ishii, Takashi Shibuya, Yuki Mitsufuji
cs.AI

Samenvatting

De afgelopen jaren hebben op diffusie gebaseerde generatieve modellen, dankzij hun realistische generatieresultaten en een breed scala aan gepersonaliseerde toepassingen, veel aandacht gekregen op het gebied van visuele en audiogeneratie. In vergelijking met de aanzienlijke vooruitgang in text2image- of text2audio-generatie, is onderzoek naar audio2visual- of visual2audio-generatie relatief traag verlopen. Recente audio-visuele generatiemethoden maken meestal gebruik van grote taalmodel(len) of composeerbare diffusiemodellen. In plaats van nog een gigantisch model te ontwerpen voor audio-visuele generatie, nemen we in dit artikel een stap terug en laten we zien dat een eenvoudige en lichtgewicht generatieve transformer, die nog niet volledig is onderzocht in multi-modale generatie, uitstekende resultaten kan behalen bij image2audio-generatie. De transformer werkt in de discrete audio- en visuele Vector-Quantized GAN-ruimte en wordt getraind in een masker-denoising-manier. Na de training kan classifier-free guidance direct worden ingezet voor betere prestaties, zonder extra training of aanpassingen. Omdat het transformermodel modaal symmetrisch is, kan het ook direct worden ingezet voor audio2image-generatie en co-generatie. In de experimenten laten we zien dat onze eenvoudige methode recente image2audio-generatiemethoden overtreft. Geproduceerde audiovoorbeelden zijn te vinden op https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQ.
English
In recent years, with the realistic generation results and a wide range of personalized applications, diffusion-based generative models gain huge attention in both visual and audio generation areas. Compared to the considerable advancements of text2image or text2audio generation, research in audio2visual or visual2audio generation has been relatively slow. The recent audio-visual generation methods usually resort to huge large language model or composable diffusion models. Instead of designing another giant model for audio-visual generation, in this paper we take a step back showing a simple and lightweight generative transformer, which is not fully investigated in multi-modal generation, can achieve excellent results on image2audio generation. The transformer operates in the discrete audio and visual Vector-Quantized GAN space, and is trained in the mask denoising manner. After training, the classifier-free guidance could be deployed off-the-shelf achieving better performance, without any extra training or modification. Since the transformer model is modality symmetrical, it could also be directly deployed for audio2image generation and co-generation. In the experiments, we show that our simple method surpasses recent image2audio generation methods. Generated audio samples can be found at https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQ
PDF131February 8, 2026