CostFormer: Transformador de Costos para la Agregación de Costos en Estereo de Múltiples Vistas
CostFormer:Cost Transformer for Cost Aggregation in Multi-view Stereo
May 17, 2023
Autores: Weitao Chen, Hongbin Xu, Zhipeng Zhou, Yang Liu, Baigui Sun, Wenxiong Kang, Xuansong Xie
cs.AI
Resumen
El núcleo de la Estereo de Múltiples Vistas (MVS) es el proceso de correspondencia entre píxeles de referencia y fuente. La agregación de costos juega un papel significativo en este proceso, mientras que métodos anteriores se centran en manejarlo mediante CNNs. Esto puede heredar la limitación natural de las CNNs, que fallan en discriminar correspondencias repetitivas o incorrectas debido a campos receptivos locales limitados. Para abordar este problema, buscamos incorporar Transformer en la agregación de costos. Sin embargo, puede surgir otro problema debido a la complejidad computacional que crece cuadráticamente con Transformer, lo que resulta en desbordamiento de memoria y latencia en la inferencia. En este artículo, superamos estos límites con una red eficiente de agregación de costos basada en Transformer, denominada CostFormer. Se propone el Transformer de Costo Consciente de la Profundidad Residual (RDACT) para agregar características de largo alcance en el volumen de costo mediante mecanismos de auto-atención a lo largo de las dimensiones de profundidad y espaciales. Además, se propone el Transformer de Regresión Residual (RRT) para mejorar la atención espacial. El método propuesto es un complemento universal para mejorar los métodos de MVS basados en aprendizaje.
English
The core of Multi-view Stereo(MVS) is the matching process among reference
and source pixels. Cost aggregation plays a significant role in this process,
while previous methods focus on handling it via CNNs. This may inherit the
natural limitation of CNNs that fail to discriminate repetitive or incorrect
matches due to limited local receptive fields. To handle the issue, we aim to
involve Transformer into cost aggregation. However, another problem may occur
due to the quadratically growing computational complexity caused by
Transformer, resulting in memory overflow and inference latency. In this paper,
we overcome these limits with an efficient Transformer-based cost aggregation
network, namely CostFormer. The Residual Depth-Aware Cost Transformer(RDACT) is
proposed to aggregate long-range features on cost volume via self-attention
mechanisms along the depth and spatial dimensions. Furthermore, Residual
Regression Transformer(RRT) is proposed to enhance spatial attention. The
proposed method is a universal plug-in to improve learning-based MVS methods.