AV-DiT: Эффективный аудио-визуальный диффузионный трансформер для совместного создания аудио и видео.
AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation
June 11, 2024
Авторы: Kai Wang, Shijian Deng, Jing Shi, Dimitrios Hatzinakos, Yapeng Tian
cs.AI
Аннотация
Недавние Диффузные Трансформеры (DiTs) продемонстрировали впечатляющие возможности в создании высококачественного контента одной модальности, включая изображения, видео и звук. Однако до сих пор недостаточно исследовано, насколько трансформаторный диффузор может эффективно устранять гауссовские шумы для создания превосходного мультимодального контента. Для заполнения этого пробела мы представляем AV-DiT, новый и эффективный аудио-визуальный диффузионный трансформер, разработанный для создания высококачественных, реалистичных видео с визуальными и аудио дорожками. Для минимизации сложности модели и вычислительных затрат AV-DiT использует общий корпус DiT, предварительно обученный только на данных только изображений, с возможностью обучения только легких, вновь вставленных адаптеров. Этот общий корпус облегчает как генерацию аудио, так и видео. В частности, ветвь видео включает обучаемый слой временного внимания в замороженный предварительно обученный блок DiT для обеспечения временной согласованности. Кроме того, небольшое количество обучаемых параметров адаптируют блок DiT на основе изображений для генерации аудио. Дополнительный общий блок DiT, оборудованный легкими параметрами, обеспечивает взаимодействие признаков между аудио и визуальными модальностями, обеспечивая их согласованность. Обширные эксперименты на наборах данных AIST++ и Landscape показывают, что AV-DiT достигает передового качества в совместной генерации аудио и видео с значительно меньшим количеством настраиваемых параметров. Кроме того, наши результаты подчеркивают, что один общий генеративный корпус изображений с модальностями-специфическими адаптациями достаточен для построения совместного аудио-видео генератора. Наш исходный код и предварительно обученные модели будут выпущены.
English
Recent Diffusion Transformers (DiTs) have shown impressive capabilities in
generating high-quality single-modality content, including images, videos, and
audio. However, it is still under-explored whether the transformer-based
diffuser can efficiently denoise the Gaussian noises towards superb multimodal
content creation. To bridge this gap, we introduce AV-DiT, a novel and
efficient audio-visual diffusion transformer designed to generate high-quality,
realistic videos with both visual and audio tracks. To minimize model
complexity and computational costs, AV-DiT utilizes a shared DiT backbone
pre-trained on image-only data, with only lightweight, newly inserted adapters
being trainable. This shared backbone facilitates both audio and video
generation. Specifically, the video branch incorporates a trainable temporal
attention layer into a frozen pre-trained DiT block for temporal consistency.
Additionally, a small number of trainable parameters adapt the image-based DiT
block for audio generation. An extra shared DiT block, equipped with
lightweight parameters, facilitates feature interaction between audio and
visual modalities, ensuring alignment. Extensive experiments on the AIST++ and
Landscape datasets demonstrate that AV-DiT achieves state-of-the-art
performance in joint audio-visual generation with significantly fewer tunable
parameters. Furthermore, our results highlight that a single shared image
generative backbone with modality-specific adaptations is sufficient for
constructing a joint audio-video generator. Our source code and pre-trained
models will be released.Summary
AI-Generated Summary