ChatPaper.aiChatPaper

시각적 메아리: 오디오-비주얼 생성을 위한 단일 통합 트랜스포머

Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation

May 23, 2024
저자: Shiqi Yang, Zhi Zhong, Mengjie Zhao, Shusuke Takahashi, Masato Ishii, Takashi Shibuya, Yuki Mitsufuji
cs.AI

초록

최근 몇 년간, 현실적인 생성 결과와 다양한 맞춤형 애플리케이션으로 인해 확산 기반 생성 모델은 시각 및 오디오 생성 분야에서 큰 주목을 받고 있습니다. 텍스트2이미지 또는 텍스트2오디오 생성의 상당한 발전과 비교하여, 오디오2시각 또는 시각2오디오 생성에 대한 연구는 상대적으로 더디게 진행되어 왔습니다. 최근의 오디오-시각 생성 방법들은 대규모 언어 모델이나 조합 가능한 확산 모델에 의존하는 경우가 많습니다. 본 논문에서는 오디오-시각 생성을 위한 또 다른 거대 모델을 설계하는 대신, 다중 모달 생성에서 충분히 탐구되지 않은 간단하고 경량화된 생성 트랜스포머가 이미지2오디오 생성에서 우수한 결과를 달성할 수 있음을 보여줍니다. 이 트랜스포머는 이산 오디오 및 시각 Vector-Quantized GAN 공간에서 작동하며, 마스크 노이즈 제거 방식으로 학습됩니다. 학습 후, 추가 학습이나 수정 없이도 즉시 사용 가능한 classifier-free guidance를 통해 더 나은 성능을 달성할 수 있습니다. 트랜스포머 모델은 모달리티 대칭적이므로, 오디오2이미지 생성 및 공동 생성에도 직접 적용할 수 있습니다. 실험에서 우리는 이 간단한 방법이 최근의 이미지2오디오 생성 방법들을 능가함을 보여줍니다. 생성된 오디오 샘플은 https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQ에서 확인할 수 있습니다.
English
In recent years, with the realistic generation results and a wide range of personalized applications, diffusion-based generative models gain huge attention in both visual and audio generation areas. Compared to the considerable advancements of text2image or text2audio generation, research in audio2visual or visual2audio generation has been relatively slow. The recent audio-visual generation methods usually resort to huge large language model or composable diffusion models. Instead of designing another giant model for audio-visual generation, in this paper we take a step back showing a simple and lightweight generative transformer, which is not fully investigated in multi-modal generation, can achieve excellent results on image2audio generation. The transformer operates in the discrete audio and visual Vector-Quantized GAN space, and is trained in the mask denoising manner. After training, the classifier-free guidance could be deployed off-the-shelf achieving better performance, without any extra training or modification. Since the transformer model is modality symmetrical, it could also be directly deployed for audio2image generation and co-generation. In the experiments, we show that our simple method surpasses recent image2audio generation methods. Generated audio samples can be found at https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQ

Summary

AI-Generated Summary

PDF141December 15, 2024