CostFormer: Cost Transformer zur Kostenaggregation in Multi-View Stereo
CostFormer:Cost Transformer for Cost Aggregation in Multi-view Stereo
May 17, 2023
Autoren: Weitao Chen, Hongbin Xu, Zhipeng Zhou, Yang Liu, Baigui Sun, Wenxiong Kang, Xuansong Xie
cs.AI
Zusammenfassung
Der Kern von Multi-View Stereo (MVS) ist der Matching-Prozess zwischen Referenz- und Quellpixeln. Die Kostenaggregation spielt in diesem Prozess eine entscheidende Rolle, während sich frühere Methoden darauf konzentrierten, dies über CNNs zu handhaben. Dies kann die natürliche Beschränkung von CNNs erben, die aufgrund begrenzter lokaler rezeptiver Felder wiederholte oder falsche Matches nicht unterscheiden können. Um dieses Problem zu lösen, streben wir an, Transformer in die Kostenaggregation einzubeziehen. Allerdings kann ein weiteres Problem auftreten, das auf die quadratisch ansteigende Rechenkomplexität des Transformers zurückzuführen ist, was zu Speicherüberlauf und Inferenzverzögerungen führt. In diesem Papier überwinden wir diese Grenzen mit einem effizienten Transformer-basierten Kostenaggregationsnetzwerk, genannt CostFormer. Der Residual Depth-Aware Cost Transformer (RDACT) wird vorgeschlagen, um langreichweitige Merkmale auf dem Kostenvolumen über Selbstaufmerksamkeitsmechanismen entlang der Tiefen- und Raumdimensionen zu aggregieren. Darüber hinaus wird der Residual Regression Transformer (RRT) vorgeschlagen, um die räumliche Aufmerksamkeit zu verbessern. Die vorgeschlagene Methode ist ein universelles Plug-in, um lernbasierte MVS-Methoden zu verbessern.
English
The core of Multi-view Stereo(MVS) is the matching process among reference
and source pixels. Cost aggregation plays a significant role in this process,
while previous methods focus on handling it via CNNs. This may inherit the
natural limitation of CNNs that fail to discriminate repetitive or incorrect
matches due to limited local receptive fields. To handle the issue, we aim to
involve Transformer into cost aggregation. However, another problem may occur
due to the quadratically growing computational complexity caused by
Transformer, resulting in memory overflow and inference latency. In this paper,
we overcome these limits with an efficient Transformer-based cost aggregation
network, namely CostFormer. The Residual Depth-Aware Cost Transformer(RDACT) is
proposed to aggregate long-range features on cost volume via self-attention
mechanisms along the depth and spatial dimensions. Furthermore, Residual
Regression Transformer(RRT) is proposed to enhance spatial attention. The
proposed method is a universal plug-in to improve learning-based MVS methods.