CostFormer: Trasformatore di Costo per l'Aggregazione dei Costi nella Stereoscopia Multi-vista
CostFormer:Cost Transformer for Cost Aggregation in Multi-view Stereo
May 17, 2023
Autori: Weitao Chen, Hongbin Xu, Zhipeng Zhou, Yang Liu, Baigui Sun, Wenxiong Kang, Xuansong Xie
cs.AI
Abstract
Il nucleo della Stereo Multi-vista (MVS) risiede nel processo di corrispondenza tra i pixel di riferimento e quelli sorgente. L'aggregazione dei costi svolge un ruolo significativo in questo processo, mentre i metodi precedenti si concentrano sulla sua gestione tramite CNN. Questo approccio può ereditare la limitazione intrinseca delle CNN, che non riescono a discriminare corrispondenze ripetitive o errate a causa dei campi ricettivi locali limitati. Per affrontare questo problema, miriamo a integrare il Transformer nell'aggregazione dei costi. Tuttavia, può sorgere un altro problema a causa della complessità computazionale che cresce quadraticamente con il Transformer, portando a un overflow di memoria e a latenza nell'inferenza. In questo articolo, superiamo questi limiti con una rete efficiente di aggregazione dei costi basata su Transformer, denominata CostFormer. Il Residual Depth-Aware Cost Transformer (RDACT) è proposto per aggregare caratteristiche a lungo raggio sul volume dei costi tramite meccanismi di self-attention lungo le dimensioni di profondità e spaziali. Inoltre, il Residual Regression Transformer (RRT) è proposto per migliorare l'attenzione spaziale. Il metodo proposto è un plug-in universale per migliorare i metodi MVS basati sull'apprendimento.
English
The core of Multi-view Stereo(MVS) is the matching process among reference
and source pixels. Cost aggregation plays a significant role in this process,
while previous methods focus on handling it via CNNs. This may inherit the
natural limitation of CNNs that fail to discriminate repetitive or incorrect
matches due to limited local receptive fields. To handle the issue, we aim to
involve Transformer into cost aggregation. However, another problem may occur
due to the quadratically growing computational complexity caused by
Transformer, resulting in memory overflow and inference latency. In this paper,
we overcome these limits with an efficient Transformer-based cost aggregation
network, namely CostFormer. The Residual Depth-Aware Cost Transformer(RDACT) is
proposed to aggregate long-range features on cost volume via self-attention
mechanisms along the depth and spatial dimensions. Furthermore, Residual
Regression Transformer(RRT) is proposed to enhance spatial attention. The
proposed method is a universal plug-in to improve learning-based MVS methods.