ChatPaper.aiChatPaper

FoleyCrafter : Donnez vie aux vidéos silencieuses avec des sons réalistes et synchronisés

FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds

July 1, 2024
Auteurs: Yiming Zhang, Yicheng Gu, Yanhong Zeng, Zhening Xing, Yuancheng Wang, Zhizheng Wu, Kai Chen
cs.AI

Résumé

Nous étudions le Neural Foley, la génération automatique d'effets sonores de haute qualité synchronisés avec des vidéos, permettant une expérience audio-visuelle immersive. Malgré ses nombreuses applications, les approches existantes rencontrent des limitations lorsqu'il s'agit de synthétiser simultanément des sons de haute qualité et alignés avec la vidéo (c'est-à-dire, sémantiquement pertinents et temporellement synchronisés). Pour surmonter ces limitations, nous proposons FoleyCrafter, un nouveau cadre de travail qui exploite un modèle pré-entraîné de texte-à-audio pour garantir une génération audio de haute qualité. FoleyCrafter comprend deux composants clés : l'adaptateur sémantique pour l'alignement sémantique et le contrôleur temporel pour une synchronisation précise audio-vidéo. L'adaptateur sémantique utilise des couches d'attention croisée parallèles pour conditionner la génération audio sur les caractéristiques de la vidéo, produisant des effets sonores réalistes et sémantiquement pertinents par rapport au contenu visuel. Parallèlement, le contrôleur temporel intègre un détecteur d'attaques et un adaptateur basé sur des timestamps pour atteindre un alignement audio-vidéo précis. Un avantage notable de FoleyCrafter est sa compatibilité avec les invites textuelles, permettant l'utilisation de descriptions textuelles pour obtenir une génération vidéo-à-audio contrôlable et diversifiée selon les intentions de l'utilisateur. Nous menons des expériences quantitatives et qualitatives approfondies sur des benchmarks standards pour vérifier l'efficacité de FoleyCrafter. Les modèles et les codes sont disponibles à l'adresse https://github.com/open-mmlab/FoleyCrafter.
English
We study Neural Foley, the automatic generation of high-quality sound effects synchronizing with videos, enabling an immersive audio-visual experience. Despite its wide range of applications, existing approaches encounter limitations when it comes to simultaneously synthesizing high-quality and video-aligned (i.e.,, semantic relevant and temporal synchronized) sounds. To overcome these limitations, we propose FoleyCrafter, a novel framework that leverages a pre-trained text-to-audio model to ensure high-quality audio generation. FoleyCrafter comprises two key components: the semantic adapter for semantic alignment and the temporal controller for precise audio-video synchronization. The semantic adapter utilizes parallel cross-attention layers to condition audio generation on video features, producing realistic sound effects that are semantically relevant to the visual content. Meanwhile, the temporal controller incorporates an onset detector and a timestampbased adapter to achieve precise audio-video alignment. One notable advantage of FoleyCrafter is its compatibility with text prompts, enabling the use of text descriptions to achieve controllable and diverse video-to-audio generation according to user intents. We conduct extensive quantitative and qualitative experiments on standard benchmarks to verify the effectiveness of FoleyCrafter. Models and codes are available at https://github.com/open-mmlab/FoleyCrafter.

Summary

AI-Generated Summary

PDF152November 28, 2024