CostFormer: Transformador de Custos para Agregação de Custos em Estereo Multi-visão

Resumo

O cerne da Estereoscopia Multi-visão (MVS) é o processo de correspondência entre pixels de referência e fonte. A agregação de custo desempenha um papel significativo nesse processo, enquanto métodos anteriores se concentram em lidar com isso por meio de CNNs. Isso pode herdar a limitação natural das CNNs, que falham em discriminar correspondências repetitivas ou incorretas devido a campos receptivos locais limitados. Para lidar com essa questão, buscamos envolver o Transformer na agregação de custo. No entanto, outro problema pode surgir devido à complexidade computacional que cresce quadraticamente causada pelo Transformer, resultando em estouro de memória e latência de inferência. Neste artigo, superamos esses limites com uma rede eficiente de agregação de custo baseada em Transformer, denominada CostFormer. O Residual Depth-Aware Cost Transformer (RDACT) é proposto para agregar características de longo alcance no volume de custo por meio de mecanismos de auto-atenção ao longo das dimensões de profundidade e espacial. Além disso, o Residual Regression Transformer (RRT) é proposto para aprimorar a atenção espacial. O método proposto é um plug-in universal para melhorar métodos de MVS baseados em aprendizado.

English

The core of Multi-view Stereo(MVS) is the matching process among reference and source pixels. Cost aggregation plays a significant role in this process, while previous methods focus on handling it via CNNs. This may inherit the natural limitation of CNNs that fail to discriminate repetitive or incorrect matches due to limited local receptive fields. To handle the issue, we aim to involve Transformer into cost aggregation. However, another problem may occur due to the quadratically growing computational complexity caused by Transformer, resulting in memory overflow and inference latency. In this paper, we overcome these limits with an efficient Transformer-based cost aggregation network, namely CostFormer. The Residual Depth-Aware Cost Transformer(RDACT) is proposed to aggregate long-range features on cost volume via self-attention mechanisms along the depth and spatial dimensions. Furthermore, Residual Regression Transformer(RRT) is proposed to enhance spatial attention. The proposed method is a universal plug-in to improve learning-based MVS methods.

CostFormer: Transformador de Custos para Agregação de Custos em Estereo Multi-visão

CostFormer:Cost Transformer for Cost Aggregation in Multi-view Stereo

Resumo

Support