Denoização Consistente de Profundidade por Tempo de Voo via Atenção Geométrica Informada por Grafos

Resumo

Imagens de profundidade capturadas por sensores de tempo de voo (Time-of-Flight, ToF) são propensas a ruídos, exigindo técnicas de remoção de ruído para aplicações subsequentes confiáveis. Trabalhos anteriores focam-se no processamento de quadro único ou realizam processamento de múltiplos quadros sem considerar as variações de profundidade em pixels correspondentes entre os quadros, resultando em inconsistência temporal e ambiguidade espacial indesejadas. Neste artigo, propomos uma nova rede de remoção de ruído de profundidade ToF que utiliza fusão de grafos invariante ao movimento para aprimorar simultaneamente a estabilidade temporal e a nitidez espacial. Especificamente, apesar das mudanças de profundidade entre os quadros, as estruturas de grafos exibem auto-similaridade temporal, permitindo atenção geométrica entre quadros para a fusão de grafos. Em seguida, ao incorporar um prior de suavidade de imagem no grafo fundido e um termo de fidelidade de dados derivado da distribuição de ruído ToF, formulamos um problema de máxima probabilidade a posteriori para a remoção de ruído ToF. Por fim, a solução é desdobrada em filtros iterativos cujos pesos são aprendidos de forma adaptativa a partir da atenção geométrica informada pelo grafo, produzindo uma rede de alto desempenho e interpretável. Resultados experimentais demonstram que o esquema proposto alcança desempenho de ponta em termos de precisão e consistência no conjunto de dados sintético DVToF e exibe generalização robusta no conjunto de dados real Kinectv2. O código-fonte será disponibilizado em https://github.com/davidweidawang/GIGA-ToF{https://github.com/davidweidawang/GIGA-ToF}.

English

Depth images captured by Time-of-Flight (ToF) sensors are prone to noise, requiring denoising for reliable downstream applications. Previous works either focus on single-frame processing, or perform multi-frame processing without considering depth variations at corresponding pixels across frames, leading to undesirable temporal inconsistency and spatial ambiguity. In this paper, we propose a novel ToF depth denoising network leveraging motion-invariant graph fusion to simultaneously enhance temporal stability and spatial sharpness. Specifically, despite depth shifts across frames, graph structures exhibit temporal self-similarity, enabling cross-frame geometric attention for graph fusion. Then, by incorporating an image smoothness prior on the fused graph and data fidelity term derived from ToF noise distribution, we formulate a maximum a posterior problem for ToF denoising. Finally, the solution is unrolled into iterative filters whose weights are adaptively learned from the graph-informed geometric attention, producing a high-performance yet interpretable network. Experimental results demonstrate that the proposed scheme achieves state-of-the-art performance in terms of accuracy and consistency on synthetic DVToF dataset and exhibits robust generalization on the real Kinectv2 dataset. Source code will be released at https://github.com/davidweidawang/GIGA-ToF{https://github.com/davidweidawang/GIGA-ToF}.

Denoização Consistente de Profundidade por Tempo de Voo via Atenção Geométrica Informada por Grafos

Consistent Time-of-Flight Depth Denoising via Graph-Informed Geometric Attention

Resumo

Support