ChatPaper.aiChatPaper

EvMic: 효과적인 시공간 모델링을 통한 이벤트 기반 비접촉식 음향 복원

EvMic: Event-based Non-contact sound recovery from effective spatial-temporal modeling

April 3, 2025
저자: Hao Yin, Shi Guo, Xu Jia, Xudong XU, Lu Zhang, Si Liu, Dong Wang, Huchuan Lu, Tianfan Xue
cs.AI

초록

음파가 물체에 부딪히면 진동을 유발하며, 이는 고주파 및 미세한 시각적 변화를 생성하여 소리를 복원하는 데 사용될 수 있습니다. 초기 연구에서는 항상 샘플링 속도, 대역폭, 시야각, 그리고 광학 경로의 단순성과 관련된 트레이드오프에 직면했습니다. 최근 이벤트 카메라 하드웨어의 발전은 고주파 신호를 포착하는 뛰어난 능력 덕분에 시각적 소리 복원 분야에서 좋은 잠재력을 보여주고 있습니다. 그러나 기존의 이벤트 기반 진동 복원 방법은 여전히 소리 복원에 있어 최적화되지 못했습니다. 본 연구에서는 이벤트 스트림에서 공간-시간 정보를 완전히 활용하여 비접촉식 소리 복원을 위한 새로운 파이프라인을 제안합니다. 먼저, 새로운 시뮬레이션 파이프라인을 사용하여 대규모 훈련 데이터 세트를 생성합니다. 그런 다음, 이벤트의 희소성을 활용하여 공간 정보를 포착하고 Mamba를 사용하여 장기적인 시간 정보를 모델링하는 네트워크를 설계했습니다. 마지막으로, 신호 품질을 더욱 개선하기 위해 서로 다른 위치에서 정보를 집계하는 공간 집계 블록을 훈련시켰습니다. 음파에 의해 발생하는 이벤트 신호를 포착하기 위해, 그라디언트를 강화하기 위해 레이저 매트릭스를 사용한 이미징 시스템을 설계하고, 테스트를 위해 여러 데이터 시퀀스를 수집했습니다. 합성 데이터와 실제 데이터에 대한 실험 결과는 우리의 방법의 효과를 입증합니다.
English
When sound waves hit an object, they induce vibrations that produce high-frequency and subtle visual changes, which can be used for recovering the sound. Early studies always encounter trade-offs related to sampling rate, bandwidth, field of view, and the simplicity of the optical path. Recent advances in event camera hardware show good potential for its application in visual sound recovery, because of its superior ability in capturing high-frequency signals. However, existing event-based vibration recovery methods are still sub-optimal for sound recovery. In this work, we propose a novel pipeline for non-contact sound recovery, fully utilizing spatial-temporal information from the event stream. We first generate a large training set using a novel simulation pipeline. Then we designed a network that leverages the sparsity of events to capture spatial information and uses Mamba to model long-term temporal information. Lastly, we train a spatial aggregation block to aggregate information from different locations to further improve signal quality. To capture event signals caused by sound waves, we also designed an imaging system using a laser matrix to enhance the gradient and collected multiple data sequences for testing. Experimental results on synthetic and real-world data demonstrate the effectiveness of our method.

Summary

AI-Generated Summary

PDF62April 7, 2025