CostFormer: Трансформер для агрегации стоимостей в многовидовой стереоскопии
CostFormer:Cost Transformer for Cost Aggregation in Multi-view Stereo
May 17, 2023
Авторы: Weitao Chen, Hongbin Xu, Zhipeng Zhou, Yang Liu, Baigui Sun, Wenxiong Kang, Xuansong Xie
cs.AI
Аннотация
Основой метода Multi-view Stereo (MVS) является процесс сопоставления пикселей между опорным и исходным изображениями. Агрегация затрат играет ключевую роль в этом процессе, однако предыдущие методы сосредоточены на её реализации с использованием сверточных нейронных сетей (CNNs). Это может наследовать естественное ограничение CNNs, заключающееся в неспособности различать повторяющиеся или ошибочные совпадения из-за ограниченных локальных рецептивных полей. Для решения этой проблемы мы предлагаем интегрировать Transformer в процесс агрегации затрат. Однако возникает другая проблема, связанная с квадратичным ростом вычислительной сложности Transformer, что приводит к переполнению памяти и задержкам при выводе. В данной статье мы преодолеваем эти ограничения с помощью эффективной сети агрегации затрат на основе Transformer, названной CostFormer. Предлагается Residual Depth-Aware Cost Transformer (RDACT) для агрегации долгосрочных признаков на объеме затрат с использованием механизмов самовнимания по глубине и пространственным измерениям. Кроме того, предлагается Residual Regression Transformer (RRT) для усиления пространственного внимания. Предложенный метод является универсальным плагином для улучшения методов MVS, основанных на обучении.
English
The core of Multi-view Stereo(MVS) is the matching process among reference
and source pixels. Cost aggregation plays a significant role in this process,
while previous methods focus on handling it via CNNs. This may inherit the
natural limitation of CNNs that fail to discriminate repetitive or incorrect
matches due to limited local receptive fields. To handle the issue, we aim to
involve Transformer into cost aggregation. However, another problem may occur
due to the quadratically growing computational complexity caused by
Transformer, resulting in memory overflow and inference latency. In this paper,
we overcome these limits with an efficient Transformer-based cost aggregation
network, namely CostFormer. The Residual Depth-Aware Cost Transformer(RDACT) is
proposed to aggregate long-range features on cost volume via self-attention
mechanisms along the depth and spatial dimensions. Furthermore, Residual
Regression Transformer(RRT) is proposed to enhance spatial attention. The
proposed method is a universal plug-in to improve learning-based MVS methods.