ChatPaper.aiChatPaper

Echi Visivi: Un Trasformatore Unificato e Semplice per la Generazione Audio-Visiva

Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation

May 23, 2024
Autori: Shiqi Yang, Zhi Zhong, Mengjie Zhao, Shusuke Takahashi, Masato Ishii, Takashi Shibuya, Yuki Mitsufuji
cs.AI

Abstract

Negli ultimi anni, grazie ai risultati di generazione realistici e a una vasta gamma di applicazioni personalizzate, i modelli generativi basati sulla diffusione hanno attirato grande attenzione sia nel campo della generazione visiva che in quella audio. Rispetto ai notevoli progressi nella generazione da testo a immagine o da testo a audio, la ricerca nella generazione da audio a visivo o da visivo a audio è stata relativamente lenta. I recenti metodi di generazione audio-visiva si affidano solitamente a enormi modelli linguistici o a modelli di diffusione componibili. Invece di progettare un altro modello gigantesco per la generazione audio-visiva, in questo articolo facciamo un passo indietro dimostrando che un semplice e leggero trasformatore generativo, non ancora completamente esplorato nella generazione multimodale, può ottenere risultati eccellenti nella generazione da immagine a audio. Il trasformatore opera nello spazio discreto audio e visivo del Vector-Quantized GAN ed è addestrato con un approccio di denoising a maschera. Dopo l'addestramento, la guida senza classificatore può essere implementata direttamente, ottenendo prestazioni migliori senza alcun addestramento o modifica aggiuntiva. Poiché il modello trasformatore è simmetrico rispetto alle modalità, può anche essere direttamente utilizzato per la generazione da audio a immagine e per la co-generazione. Negli esperimenti, dimostriamo che il nostro metodo semplice supera i recenti metodi di generazione da immagine a audio. Campioni audio generati possono essere trovati all'indirizzo https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQ.
English
In recent years, with the realistic generation results and a wide range of personalized applications, diffusion-based generative models gain huge attention in both visual and audio generation areas. Compared to the considerable advancements of text2image or text2audio generation, research in audio2visual or visual2audio generation has been relatively slow. The recent audio-visual generation methods usually resort to huge large language model or composable diffusion models. Instead of designing another giant model for audio-visual generation, in this paper we take a step back showing a simple and lightweight generative transformer, which is not fully investigated in multi-modal generation, can achieve excellent results on image2audio generation. The transformer operates in the discrete audio and visual Vector-Quantized GAN space, and is trained in the mask denoising manner. After training, the classifier-free guidance could be deployed off-the-shelf achieving better performance, without any extra training or modification. Since the transformer model is modality symmetrical, it could also be directly deployed for audio2image generation and co-generation. In the experiments, we show that our simple method surpasses recent image2audio generation methods. Generated audio samples can be found at https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQ
PDF131February 8, 2026