CostFormer: Cost Transformer voor kostenaggregatie in multi-view stereo

Samenvatting

De kern van Multi-view Stereo (MVS) is het matchingproces tussen referentie- en bronpixels. Kostenaggregatie speelt een belangrijke rol in dit proces, terwijl eerdere methoden zich vooral richtten op het afhandelen ervan via CNN's. Dit kan de inherente beperking van CNN's overnemen, namelijk het onvermogen om repetitieve of incorrecte matches te onderscheiden vanwege beperkte lokale receptieve velden. Om dit probleem aan te pakken, streven we ernaar om Transformer te betrekken bij kostenaggregatie. Echter, een ander probleem kan ontstaan door de kwadratisch toenemende rekencomplexiteit veroorzaakt door Transformer, wat resulteert in geheugenoverloop en inferentielatentie. In dit artikel overwinnen we deze beperkingen met een efficiënt Transformer-gebaseerd kostenaggregatienetwerk, genaamd CostFormer. De Residual Depth-Aware Cost Transformer (RDACT) wordt voorgesteld om langeafstandsfeatures op het kostenvolume te aggregeren via self-attention-mechanismen langs de diepte- en ruimtelijke dimensies. Bovendien wordt de Residual Regression Transformer (RRT) voorgesteld om ruimtelijke aandacht te versterken. De voorgestelde methode is een universele plug-in om op leren gebaseerde MVS-methoden te verbeteren.

English

The core of Multi-view Stereo(MVS) is the matching process among reference and source pixels. Cost aggregation plays a significant role in this process, while previous methods focus on handling it via CNNs. This may inherit the natural limitation of CNNs that fail to discriminate repetitive or incorrect matches due to limited local receptive fields. To handle the issue, we aim to involve Transformer into cost aggregation. However, another problem may occur due to the quadratically growing computational complexity caused by Transformer, resulting in memory overflow and inference latency. In this paper, we overcome these limits with an efficient Transformer-based cost aggregation network, namely CostFormer. The Residual Depth-Aware Cost Transformer(RDACT) is proposed to aggregate long-range features on cost volume via self-attention mechanisms along the depth and spatial dimensions. Furthermore, Residual Regression Transformer(RRT) is proposed to enhance spatial attention. The proposed method is a universal plug-in to improve learning-based MVS methods.

CostFormer: Cost Transformer voor kostenaggregatie in multi-view stereo

CostFormer:Cost Transformer for Cost Aggregation in Multi-view Stereo

Samenvatting

Support