EvMic: Recuperação de som sem contato baseada em eventos por meio de modelagem espaço-temporal eficaz
EvMic: Event-based Non-contact sound recovery from effective spatial-temporal modeling
April 3, 2025
Autores: Hao Yin, Shi Guo, Xu Jia, Xudong XU, Lu Zhang, Si Liu, Dong Wang, Huchuan Lu, Tianfan Xue
cs.AI
Resumo
Quando as ondas sonoras atingem um objeto, elas induzem vibrações que produzem mudanças visuais de alta frequência e sutis, que podem ser usadas para recuperar o som. Estudos iniciais sempre enfrentam trade-offs relacionados à taxa de amostragem, largura de banda, campo de visão e a simplicidade do caminho óptico. Avanços recentes no hardware de câmeras de eventos mostram um bom potencial para sua aplicação na recuperação visual do som, devido à sua capacidade superior em capturar sinais de alta frequência. No entanto, os métodos existentes de recuperação de vibração baseados em eventos ainda são subótimos para a recuperação do som. Neste trabalho, propomos um novo pipeline para a recuperação de som sem contato, utilizando plenamente informações espaço-temporais do fluxo de eventos. Primeiro, geramos um grande conjunto de treinamento usando um novo pipeline de simulação. Em seguida, projetamos uma rede que aproveita a esparsidade dos eventos para capturar informações espaciais e usa Mamba para modelar informações temporais de longo prazo. Por fim, treinamos um bloco de agregação espacial para agregar informações de diferentes locais e melhorar ainda mais a qualidade do sinal. Para capturar sinais de eventos causados por ondas sonoras, também projetamos um sistema de imagem usando uma matriz de laser para aumentar o gradiente e coletamos múltiplas sequências de dados para testes. Resultados experimentais em dados sintéticos e do mundo real demonstram a eficácia do nosso método.
English
When sound waves hit an object, they induce vibrations that produce
high-frequency and subtle visual changes, which can be used for recovering the
sound. Early studies always encounter trade-offs related to sampling rate,
bandwidth, field of view, and the simplicity of the optical path. Recent
advances in event camera hardware show good potential for its application in
visual sound recovery, because of its superior ability in capturing
high-frequency signals. However, existing event-based vibration recovery
methods are still sub-optimal for sound recovery. In this work, we propose a
novel pipeline for non-contact sound recovery, fully utilizing spatial-temporal
information from the event stream. We first generate a large training set using
a novel simulation pipeline. Then we designed a network that leverages the
sparsity of events to capture spatial information and uses Mamba to model
long-term temporal information. Lastly, we train a spatial aggregation block to
aggregate information from different locations to further improve signal
quality. To capture event signals caused by sound waves, we also designed an
imaging system using a laser matrix to enhance the gradient and collected
multiple data sequences for testing. Experimental results on synthetic and
real-world data demonstrate the effectiveness of our method.Summary
AI-Generated Summary