ChatPaper.aiChatPaper

AV-DiT: Эффективный аудио-визуальный диффузионный трансформер для совместного создания аудио и видео.

AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation

June 11, 2024
Авторы: Kai Wang, Shijian Deng, Jing Shi, Dimitrios Hatzinakos, Yapeng Tian
cs.AI

Аннотация

Недавние Диффузные Трансформеры (DiTs) продемонстрировали впечатляющие возможности в создании высококачественного контента одной модальности, включая изображения, видео и звук. Однако до сих пор недостаточно исследовано, насколько трансформаторный диффузор может эффективно устранять гауссовские шумы для создания превосходного мультимодального контента. Для заполнения этого пробела мы представляем AV-DiT, новый и эффективный аудио-визуальный диффузионный трансформер, разработанный для создания высококачественных, реалистичных видео с визуальными и аудио дорожками. Для минимизации сложности модели и вычислительных затрат AV-DiT использует общий корпус DiT, предварительно обученный только на данных только изображений, с возможностью обучения только легких, вновь вставленных адаптеров. Этот общий корпус облегчает как генерацию аудио, так и видео. В частности, ветвь видео включает обучаемый слой временного внимания в замороженный предварительно обученный блок DiT для обеспечения временной согласованности. Кроме того, небольшое количество обучаемых параметров адаптируют блок DiT на основе изображений для генерации аудио. Дополнительный общий блок DiT, оборудованный легкими параметрами, обеспечивает взаимодействие признаков между аудио и визуальными модальностями, обеспечивая их согласованность. Обширные эксперименты на наборах данных AIST++ и Landscape показывают, что AV-DiT достигает передового качества в совместной генерации аудио и видео с значительно меньшим количеством настраиваемых параметров. Кроме того, наши результаты подчеркивают, что один общий генеративный корпус изображений с модальностями-специфическими адаптациями достаточен для построения совместного аудио-видео генератора. Наш исходный код и предварительно обученные модели будут выпущены.
English
Recent Diffusion Transformers (DiTs) have shown impressive capabilities in generating high-quality single-modality content, including images, videos, and audio. However, it is still under-explored whether the transformer-based diffuser can efficiently denoise the Gaussian noises towards superb multimodal content creation. To bridge this gap, we introduce AV-DiT, a novel and efficient audio-visual diffusion transformer designed to generate high-quality, realistic videos with both visual and audio tracks. To minimize model complexity and computational costs, AV-DiT utilizes a shared DiT backbone pre-trained on image-only data, with only lightweight, newly inserted adapters being trainable. This shared backbone facilitates both audio and video generation. Specifically, the video branch incorporates a trainable temporal attention layer into a frozen pre-trained DiT block for temporal consistency. Additionally, a small number of trainable parameters adapt the image-based DiT block for audio generation. An extra shared DiT block, equipped with lightweight parameters, facilitates feature interaction between audio and visual modalities, ensuring alignment. Extensive experiments on the AIST++ and Landscape datasets demonstrate that AV-DiT achieves state-of-the-art performance in joint audio-visual generation with significantly fewer tunable parameters. Furthermore, our results highlight that a single shared image generative backbone with modality-specific adaptations is sufficient for constructing a joint audio-video generator. Our source code and pre-trained models will be released.

Summary

AI-Generated Summary

PDF170December 8, 2024