Konsistente Zeitflug-Tiefenrauschunterdrückung durch grapheninformierte geometrische Aufmerksamkeit
Consistent Time-of-Flight Depth Denoising via Graph-Informed Geometric Attention
June 30, 2025
Autoren: Weida Wang, Changyong He, Jin Zeng, Di Qiu
cs.AI
Zusammenfassung
Tiefenbilder, die von Time-of-Flight (ToF)-Sensoren erfasst werden, sind anfällig für Rauschen und erfordern eine Rauschunterdrückung für zuverlässige nachgelagerte Anwendungen. Bisherige Arbeiten konzentrieren sich entweder auf die Einzelbildverarbeitung oder führen eine Mehrbildverarbeitung durch, ohne Tiefenvariationen an entsprechenden Pixeln über die Bilder hinweg zu berücksichtigen, was zu unerwünschter zeitlicher Inkonsistenz und räumlicher Mehrdeutigkeit führt. In diesem Artikel schlagen wir ein neuartiges ToF-Tiefenrauschunterdrückungsnetzwerk vor, das eine bewegungsinvariante Graph-Fusion nutzt, um gleichzeitig die zeitliche Stabilität und die räumliche Schärfe zu verbessern. Insbesondere zeigen Graphstrukturen trotz Tiefenverschiebungen über die Bilder hinweg eine zeitliche Selbstähnlichkeit, was eine bildübergreifende geometrische Aufmerksamkeit für die Graph-Fusion ermöglicht. Durch die Einbeziehung eines Bildglättungspriors auf dem fusionierten Graphen und eines Datenkonsistenzterms, der aus der ToF-Rauschverteilung abgeleitet wird, formulieren wir ein Maximum-a-posteriori-Problem für die ToF-Rauschunterdrückung. Schließlich wird die Lösung in iterative Filter entfaltet, deren Gewichte adaptiv aus der graphbasierten geometrischen Aufmerksamkeit gelernt werden, wodurch ein leistungsstarkes und dennoch interpretierbares Netzwerk entsteht. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene Verfahren in Bezug auf Genauigkeit und Konsistenz auf dem synthetischen DVToF-Datensatz state-of-the-art Leistung erzielt und eine robuste Generalisierung auf dem realen Kinectv2-Datensatz aufweist. Der Quellcode wird unter https://github.com/davidweidawang/GIGA-ToF veröffentlicht.
English
Depth images captured by Time-of-Flight (ToF) sensors are prone to noise,
requiring denoising for reliable downstream applications. Previous works either
focus on single-frame processing, or perform multi-frame processing without
considering depth variations at corresponding pixels across frames, leading to
undesirable temporal inconsistency and spatial ambiguity. In this paper, we
propose a novel ToF depth denoising network leveraging motion-invariant graph
fusion to simultaneously enhance temporal stability and spatial sharpness.
Specifically, despite depth shifts across frames, graph structures exhibit
temporal self-similarity, enabling cross-frame geometric attention for graph
fusion. Then, by incorporating an image smoothness prior on the fused graph and
data fidelity term derived from ToF noise distribution, we formulate a maximum
a posterior problem for ToF denoising. Finally, the solution is unrolled into
iterative filters whose weights are adaptively learned from the graph-informed
geometric attention, producing a high-performance yet interpretable network.
Experimental results demonstrate that the proposed scheme achieves
state-of-the-art performance in terms of accuracy and consistency on synthetic
DVToF dataset and exhibits robust generalization on the real Kinectv2 dataset.
Source code will be released at
https://github.com/davidweidawang/GIGA-ToF{https://github.com/davidweidawang/GIGA-ToF}.