FoleyCrafter: 無音の動画にリアルで同期した音を付与し、映像を生き生きとさせる
FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds
July 1, 2024
著者: Yiming Zhang, Yicheng Gu, Yanhong Zeng, Zhening Xing, Yuancheng Wang, Zhizheng Wu, Kai Chen
cs.AI
要旨
本研究では、ビデオと同期した高品質なサウンドエフェクトを自動生成するNeural Foleyを探求し、没入感のある視聴覚体験を実現します。幅広い応用が期待される一方で、既存の手法では高品質かつビデオに整合した(すなわち、意味的に関連し時間的に同期した)音声を同時に合成する際に制約がありました。これらの制約を克服するため、我々はFoleyCrafterという新しいフレームワークを提案します。FoleyCrafterは、事前学習済みのテキストから音声へのモデルを活用して高品質な音声生成を保証します。FoleyCrafterは、意味的アラインメントのためのセマンティックアダプタと、正確な音声-ビデオ同期のためのテンポラルコントローラという2つの主要コンポーネントで構成されています。セマンティックアダプタは、並列クロスアテンションレイヤーを利用してビデオ特徴に基づいた音声生成を行い、視覚内容と意味的に関連したリアルなサウンドエフェクトを生成します。一方、テンポラルコントローラは、オンセット検出器とタイムスタンプベースのアダプタを組み込み、正確な音声-ビデオアラインメントを実現します。FoleyCrafterの注目すべき利点の一つは、テキストプロンプトとの互換性があり、ユーザーの意図に応じて制御可能で多様なビデオから音声への生成をテキスト記述を用いて実現できる点です。我々は、標準ベンチマークにおいて広範な定量的および定性的実験を行い、FoleyCrafterの有効性を検証しました。モデルとコードはhttps://github.com/open-mmlab/FoleyCrafterで公開されています。
English
We study Neural Foley, the automatic generation of high-quality sound effects
synchronizing with videos, enabling an immersive audio-visual experience.
Despite its wide range of applications, existing approaches encounter
limitations when it comes to simultaneously synthesizing high-quality and
video-aligned (i.e.,, semantic relevant and temporal synchronized) sounds. To
overcome these limitations, we propose FoleyCrafter, a novel framework that
leverages a pre-trained text-to-audio model to ensure high-quality audio
generation. FoleyCrafter comprises two key components: the semantic adapter for
semantic alignment and the temporal controller for precise audio-video
synchronization. The semantic adapter utilizes parallel cross-attention layers
to condition audio generation on video features, producing realistic sound
effects that are semantically relevant to the visual content. Meanwhile, the
temporal controller incorporates an onset detector and a timestampbased adapter
to achieve precise audio-video alignment. One notable advantage of FoleyCrafter
is its compatibility with text prompts, enabling the use of text descriptions
to achieve controllable and diverse video-to-audio generation according to user
intents. We conduct extensive quantitative and qualitative experiments on
standard benchmarks to verify the effectiveness of FoleyCrafter. Models and
codes are available at https://github.com/open-mmlab/FoleyCrafter.Summary
AI-Generated Summary