ビジュアルエコー:音声-視覚生成のためのシンプルで統一されたトランスフォーマー
Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation
May 23, 2024
著者: Shiqi Yang, Zhi Zhong, Mengjie Zhao, Shusuke Takahashi, Masato Ishii, Takashi Shibuya, Yuki Mitsufuji
cs.AI
要旨
近年、現実的な生成結果と幅広いパーソナライズドアプリケーションにより、拡散モデルに基づく生成モデルは視覚および音声生成の分野で大きな注目を集めています。テキストから画像や音声を生成する技術の著しい進歩に比べ、音声から視覚や視覚から音声を生成する研究は比較的遅れています。最近の音声-視覚生成手法は、巨大な大規模言語モデルや合成可能な拡散モデルに頼ることが一般的です。本論文では、音声-視覚生成のための別の巨大モデルを設計する代わりに、マルチモーダル生成において十分に検討されていないシンプルで軽量な生成トランスフォーマーが、画像から音声を生成するタスクで優れた結果を達成できることを示します。このトランスフォーマーは、離散的な音声および視覚のVector-Quantized GAN空間で動作し、マスクノイズ除去の方法で訓練されます。訓練後、追加の訓練や修正なしで、分類器不要のガイダンスをそのまま適用することで、より良い性能を達成できます。トランスフォーマーモデルはモダリティ対称であるため、音声から画像を生成するタスクや共同生成にも直接適用可能です。実験では、本手法が最近の画像から音声を生成する手法を凌駕することを示します。生成された音声サンプルは以下のリンクで確認できます:
https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQ
English
In recent years, with the realistic generation results and a wide range of
personalized applications, diffusion-based generative models gain huge
attention in both visual and audio generation areas. Compared to the
considerable advancements of text2image or text2audio generation, research in
audio2visual or visual2audio generation has been relatively slow. The recent
audio-visual generation methods usually resort to huge large language model or
composable diffusion models. Instead of designing another giant model for
audio-visual generation, in this paper we take a step back showing a simple and
lightweight generative transformer, which is not fully investigated in
multi-modal generation, can achieve excellent results on image2audio
generation. The transformer operates in the discrete audio and visual
Vector-Quantized GAN space, and is trained in the mask denoising manner. After
training, the classifier-free guidance could be deployed off-the-shelf
achieving better performance, without any extra training or modification. Since
the transformer model is modality symmetrical, it could also be directly
deployed for audio2image generation and co-generation. In the experiments, we
show that our simple method surpasses recent image2audio generation methods.
Generated audio samples can be found at
https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQSummary
AI-Generated Summary