EvMic: 効果的な時空間モデリングに基づくイベントベース非接触音声復元
EvMic: Event-based Non-contact sound recovery from effective spatial-temporal modeling
April 3, 2025
著者: Hao Yin, Shi Guo, Xu Jia, Xudong XU, Lu Zhang, Si Liu, Dong Wang, Huchuan Lu, Tianfan Xue
cs.AI
要旨
音波が物体に当たると、物体は振動し、高周波で微妙な視覚的変化を生み出します。この変化を利用して音を復元することが可能です。初期の研究では、サンプリングレート、帯域幅、視野角、光路の簡素さといった要素間のトレードオフに常に直面していました。近年のイベントカメラハードウェアの進歩は、高周波信号の捕捉能力に優れているため、視覚的音響復元への応用において大きな可能性を示しています。しかし、既存のイベントベースの振動復元手法は、音響復元においてまだ最適とは言えません。本研究では、イベントストリームから得られる時空間情報を最大限に活用した非接触音響復元のための新しいパイプラインを提案します。まず、新しいシミュレーションパイプラインを使用して大規模なトレーニングセットを生成します。次に、イベントのスパース性を活用して空間情報を捕捉し、Mambaを使用して長期的な時間情報をモデル化するネットワークを設計しました。最後に、信号品質をさらに向上させるために、異なる位置からの情報を集約する空間集約ブロックをトレーニングします。音波によって引き起こされるイベント信号を捕捉するために、勾配を強化するレーザーマトリックスを使用したイメージングシステムを設計し、テスト用の複数のデータシーケンスを収集しました。合成データと実世界のデータを用いた実験結果は、本手法の有効性を示しています。
English
When sound waves hit an object, they induce vibrations that produce
high-frequency and subtle visual changes, which can be used for recovering the
sound. Early studies always encounter trade-offs related to sampling rate,
bandwidth, field of view, and the simplicity of the optical path. Recent
advances in event camera hardware show good potential for its application in
visual sound recovery, because of its superior ability in capturing
high-frequency signals. However, existing event-based vibration recovery
methods are still sub-optimal for sound recovery. In this work, we propose a
novel pipeline for non-contact sound recovery, fully utilizing spatial-temporal
information from the event stream. We first generate a large training set using
a novel simulation pipeline. Then we designed a network that leverages the
sparsity of events to capture spatial information and uses Mamba to model
long-term temporal information. Lastly, we train a spatial aggregation block to
aggregate information from different locations to further improve signal
quality. To capture event signals caused by sound waves, we also designed an
imaging system using a laser matrix to enhance the gradient and collected
multiple data sequences for testing. Experimental results on synthetic and
real-world data demonstrate the effectiveness of our method.Summary
AI-Generated Summary