ChatPaper.aiChatPaper

Визуальные Эхо: Простой Объединенный Трансформер для Аудио-визуальной Генерации

Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation

May 23, 2024
Авторы: Shiqi Yang, Zhi Zhong, Mengjie Zhao, Shusuke Takahashi, Masato Ishii, Takashi Shibuya, Yuki Mitsufuji
cs.AI

Аннотация

В последние годы, с реалистичными результатами генерации и широким спектром персонализированных приложений, модели генерации на основе диффузии привлекают огромное внимание как в области визуальной, так и звуковой генерации. По сравнению с значительными достижениями в генерации текста в изображение или текста в аудио, исследования в области аудио-визуальной или визуально-аудио генерации продвигались относительно медленно. Современные методы аудио-визуальной генерации обычно прибегают к огромным языковым моделям или составным моделям диффузии. Вместо разработки еще одной гигантской модели для аудио-визуальной генерации, в данной статье мы делаем шаг назад, показывая, что простой и легкий генеративный трансформер, который не полностью исследован в мульти-модальной генерации, может достичь отличных результатов в генерации изображения в аудио. Трансформер работает в дискретном аудио и визуальном пространстве GAN с векторным квантованием и обучается в режиме масочной денойзинг. После обучения, руководство без классификатора может быть использовано без дополнительного обучения или модификации, что приводит к лучшей производительности. Поскольку модель трансформера симметрична по модальности, ее также можно прямо применять для генерации аудио в изображение и совместной генерации. В экспериментах мы показываем, что наш простой метод превосходит недавние методы генерации изображения в аудио. Сгенерированные аудиообразцы можно найти по ссылке: https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQ
English
In recent years, with the realistic generation results and a wide range of personalized applications, diffusion-based generative models gain huge attention in both visual and audio generation areas. Compared to the considerable advancements of text2image or text2audio generation, research in audio2visual or visual2audio generation has been relatively slow. The recent audio-visual generation methods usually resort to huge large language model or composable diffusion models. Instead of designing another giant model for audio-visual generation, in this paper we take a step back showing a simple and lightweight generative transformer, which is not fully investigated in multi-modal generation, can achieve excellent results on image2audio generation. The transformer operates in the discrete audio and visual Vector-Quantized GAN space, and is trained in the mask denoising manner. After training, the classifier-free guidance could be deployed off-the-shelf achieving better performance, without any extra training or modification. Since the transformer model is modality symmetrical, it could also be directly deployed for audio2image generation and co-generation. In the experiments, we show that our simple method surpasses recent image2audio generation methods. Generated audio samples can be found at https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQ

Summary

AI-Generated Summary

PDF141December 15, 2024