ChatPaper.aiChatPaper

Denoising coerente della profondità Time-of-Flight tramite attenzione geometrica informata da grafi

Consistent Time-of-Flight Depth Denoising via Graph-Informed Geometric Attention

June 30, 2025
Autori: Weida Wang, Changyong He, Jin Zeng, Di Qiu
cs.AI

Abstract

Le immagini di profondità acquisite dai sensori Time-of-Flight (ToF) sono soggette a rumore, richiedendo un processo di denoising per applicazioni downstream affidabili. I lavori precedenti si concentrano principalmente sull'elaborazione di singoli fotogrammi o eseguono un'elaborazione multi-fotogramma senza considerare le variazioni di profondità nei pixel corrispondenti tra i fotogrammi, portando a un'incertezza temporale e ambiguità spaziale indesiderate. In questo articolo, proponiamo una nuova rete di denoising per immagini di profondità ToF che sfrutta la fusione di grafi invarianti al movimento per migliorare simultaneamente la stabilità temporale e la nitidezza spaziale. Nello specifico, nonostante gli spostamenti di profondità tra i fotogrammi, le strutture dei grafi mostrano un'auto-similarità temporale, consentendo un'attenzione geometrica inter-fotogramma per la fusione dei grafi. Successivamente, incorporando un precedente di regolarità dell'immagine sul grafo fuso e un termine di fedeltà ai dati derivato dalla distribuzione del rumore ToF, formuliamo un problema di massima a posteriori per il denoising ToF. Infine, la soluzione viene scomposta in filtri iterativi i cui pesi sono appresi in modo adattivo dall'attenzione geometrica informata dal grafo, producendo una rete ad alte prestazioni ma interpretabile. I risultati sperimentali dimostrano che lo schema proposto raggiunge prestazioni all'avanguardia in termini di accuratezza e coerenza sul dataset sintetico DVToF e mostra una robusta generalizzazione sul dataset reale Kinectv2. Il codice sorgente sarà rilasciato su https://github.com/davidweidawang/GIGA-ToF{https://github.com/davidweidawang/GIGA-ToF}.
English
Depth images captured by Time-of-Flight (ToF) sensors are prone to noise, requiring denoising for reliable downstream applications. Previous works either focus on single-frame processing, or perform multi-frame processing without considering depth variations at corresponding pixels across frames, leading to undesirable temporal inconsistency and spatial ambiguity. In this paper, we propose a novel ToF depth denoising network leveraging motion-invariant graph fusion to simultaneously enhance temporal stability and spatial sharpness. Specifically, despite depth shifts across frames, graph structures exhibit temporal self-similarity, enabling cross-frame geometric attention for graph fusion. Then, by incorporating an image smoothness prior on the fused graph and data fidelity term derived from ToF noise distribution, we formulate a maximum a posterior problem for ToF denoising. Finally, the solution is unrolled into iterative filters whose weights are adaptively learned from the graph-informed geometric attention, producing a high-performance yet interpretable network. Experimental results demonstrate that the proposed scheme achieves state-of-the-art performance in terms of accuracy and consistency on synthetic DVToF dataset and exhibits robust generalization on the real Kinectv2 dataset. Source code will be released at https://github.com/davidweidawang/GIGA-ToF{https://github.com/davidweidawang/GIGA-ToF}.
PDF142July 1, 2025