Denoising Consistente de Profundidad por Tiempo de Vuelo mediante Atención Geométrica Informada por Grafos
Consistent Time-of-Flight Depth Denoising via Graph-Informed Geometric Attention
June 30, 2025
Autores: Weida Wang, Changyong He, Jin Zeng, Di Qiu
cs.AI
Resumen
Las imágenes de profundidad capturadas por sensores de tiempo de vuelo (ToF) son propensas al ruido, lo que requiere un proceso de eliminación de ruido para aplicaciones posteriores confiables. Trabajos anteriores se centran en el procesamiento de fotogramas individuales o realizan procesamiento de múltiples fotogramas sin considerar las variaciones de profundidad en los píxeles correspondientes entre fotogramas, lo que conduce a una inconsistencia temporal y ambigüedad espacial no deseables. En este artículo, proponemos una novedosa red de eliminación de ruido de profundidad ToF que aprovecha la fusión de grafos invariante al movimiento para mejorar simultáneamente la estabilidad temporal y la nitidez espacial. Específicamente, a pesar de los cambios de profundidad entre fotogramas, las estructuras de grafos exhiben autosimilitud temporal, lo que permite una atención geométrica entre fotogramas para la fusión de grafos. Luego, al incorporar un previo de suavidad de imagen en el grafo fusionado y un término de fidelidad de datos derivado de la distribución de ruido ToF, formulamos un problema de máxima a posteriori para la eliminación de ruido ToF. Finalmente, la solución se descompone en filtros iterativos cuyos pesos se aprenden de manera adaptativa a partir de la atención geométrica informada por el grafo, produciendo una red de alto rendimiento pero interpretable. Los resultados experimentales demuestran que el esquema propuesto alcanza un rendimiento de vanguardia en términos de precisión y consistencia en el conjunto de datos sintético DVToF y exhibe una generalización robusta en el conjunto de datos real Kinectv2. El código fuente será publicado en https://github.com/davidweidawang/GIGA-ToF{https://github.com/davidweidawang/GIGA-ToF}.
English
Depth images captured by Time-of-Flight (ToF) sensors are prone to noise,
requiring denoising for reliable downstream applications. Previous works either
focus on single-frame processing, or perform multi-frame processing without
considering depth variations at corresponding pixels across frames, leading to
undesirable temporal inconsistency and spatial ambiguity. In this paper, we
propose a novel ToF depth denoising network leveraging motion-invariant graph
fusion to simultaneously enhance temporal stability and spatial sharpness.
Specifically, despite depth shifts across frames, graph structures exhibit
temporal self-similarity, enabling cross-frame geometric attention for graph
fusion. Then, by incorporating an image smoothness prior on the fused graph and
data fidelity term derived from ToF noise distribution, we formulate a maximum
a posterior problem for ToF denoising. Finally, the solution is unrolled into
iterative filters whose weights are adaptively learned from the graph-informed
geometric attention, producing a high-performance yet interpretable network.
Experimental results demonstrate that the proposed scheme achieves
state-of-the-art performance in terms of accuracy and consistency on synthetic
DVToF dataset and exhibits robust generalization on the real Kinectv2 dataset.
Source code will be released at
https://github.com/davidweidawang/GIGA-ToF{https://github.com/davidweidawang/GIGA-ToF}.