CostFormer: Cost Transformer voor kostenaggregatie in multi-view stereo
CostFormer:Cost Transformer for Cost Aggregation in Multi-view Stereo
May 17, 2023
Auteurs: Weitao Chen, Hongbin Xu, Zhipeng Zhou, Yang Liu, Baigui Sun, Wenxiong Kang, Xuansong Xie
cs.AI
Samenvatting
De kern van Multi-view Stereo (MVS) is het matchingproces tussen referentie- en bronpixels. Kostenaggregatie speelt een belangrijke rol in dit proces, terwijl eerdere methoden zich vooral richtten op het afhandelen ervan via CNN's. Dit kan de inherente beperking van CNN's overnemen, namelijk het onvermogen om repetitieve of incorrecte matches te onderscheiden vanwege beperkte lokale receptieve velden. Om dit probleem aan te pakken, streven we ernaar om Transformer te betrekken bij kostenaggregatie. Echter, een ander probleem kan ontstaan door de kwadratisch toenemende rekencomplexiteit veroorzaakt door Transformer, wat resulteert in geheugenoverloop en inferentielatentie. In dit artikel overwinnen we deze beperkingen met een efficiënt Transformer-gebaseerd kostenaggregatienetwerk, genaamd CostFormer. De Residual Depth-Aware Cost Transformer (RDACT) wordt voorgesteld om langeafstandsfeatures op het kostenvolume te aggregeren via self-attention-mechanismen langs de diepte- en ruimtelijke dimensies. Bovendien wordt de Residual Regression Transformer (RRT) voorgesteld om ruimtelijke aandacht te versterken. De voorgestelde methode is een universele plug-in om op leren gebaseerde MVS-methoden te verbeteren.
English
The core of Multi-view Stereo(MVS) is the matching process among reference
and source pixels. Cost aggregation plays a significant role in this process,
while previous methods focus on handling it via CNNs. This may inherit the
natural limitation of CNNs that fail to discriminate repetitive or incorrect
matches due to limited local receptive fields. To handle the issue, we aim to
involve Transformer into cost aggregation. However, another problem may occur
due to the quadratically growing computational complexity caused by
Transformer, resulting in memory overflow and inference latency. In this paper,
we overcome these limits with an efficient Transformer-based cost aggregation
network, namely CostFormer. The Residual Depth-Aware Cost Transformer(RDACT) is
proposed to aggregate long-range features on cost volume via self-attention
mechanisms along the depth and spatial dimensions. Furthermore, Residual
Regression Transformer(RRT) is proposed to enhance spatial attention. The
proposed method is a universal plug-in to improve learning-based MVS methods.