Denoização Consistente de Profundidade por Tempo de Voo via Atenção Geométrica Informada por Grafos
Consistent Time-of-Flight Depth Denoising via Graph-Informed Geometric Attention
June 30, 2025
Autores: Weida Wang, Changyong He, Jin Zeng, Di Qiu
cs.AI
Resumo
Imagens de profundidade capturadas por sensores de tempo de voo (Time-of-Flight, ToF) são propensas a ruídos, exigindo técnicas de remoção de ruído para aplicações subsequentes confiáveis. Trabalhos anteriores focam-se no processamento de quadro único ou realizam processamento de múltiplos quadros sem considerar as variações de profundidade em pixels correspondentes entre os quadros, resultando em inconsistência temporal e ambiguidade espacial indesejadas. Neste artigo, propomos uma nova rede de remoção de ruído de profundidade ToF que utiliza fusão de grafos invariante ao movimento para aprimorar simultaneamente a estabilidade temporal e a nitidez espacial. Especificamente, apesar das mudanças de profundidade entre os quadros, as estruturas de grafos exibem auto-similaridade temporal, permitindo atenção geométrica entre quadros para a fusão de grafos. Em seguida, ao incorporar um prior de suavidade de imagem no grafo fundido e um termo de fidelidade de dados derivado da distribuição de ruído ToF, formulamos um problema de máxima probabilidade a posteriori para a remoção de ruído ToF. Por fim, a solução é desdobrada em filtros iterativos cujos pesos são aprendidos de forma adaptativa a partir da atenção geométrica informada pelo grafo, produzindo uma rede de alto desempenho e interpretável. Resultados experimentais demonstram que o esquema proposto alcança desempenho de ponta em termos de precisão e consistência no conjunto de dados sintético DVToF e exibe generalização robusta no conjunto de dados real Kinectv2. O código-fonte será disponibilizado em https://github.com/davidweidawang/GIGA-ToF{https://github.com/davidweidawang/GIGA-ToF}.
English
Depth images captured by Time-of-Flight (ToF) sensors are prone to noise,
requiring denoising for reliable downstream applications. Previous works either
focus on single-frame processing, or perform multi-frame processing without
considering depth variations at corresponding pixels across frames, leading to
undesirable temporal inconsistency and spatial ambiguity. In this paper, we
propose a novel ToF depth denoising network leveraging motion-invariant graph
fusion to simultaneously enhance temporal stability and spatial sharpness.
Specifically, despite depth shifts across frames, graph structures exhibit
temporal self-similarity, enabling cross-frame geometric attention for graph
fusion. Then, by incorporating an image smoothness prior on the fused graph and
data fidelity term derived from ToF noise distribution, we formulate a maximum
a posterior problem for ToF denoising. Finally, the solution is unrolled into
iterative filters whose weights are adaptively learned from the graph-informed
geometric attention, producing a high-performance yet interpretable network.
Experimental results demonstrate that the proposed scheme achieves
state-of-the-art performance in terms of accuracy and consistency on synthetic
DVToF dataset and exhibits robust generalization on the real Kinectv2 dataset.
Source code will be released at
https://github.com/davidweidawang/GIGA-ToF{https://github.com/davidweidawang/GIGA-ToF}.