ChatPaper.aiChatPaper

CostFormer : Transformeur de coût pour l'agrégation des coûts en stéréo multi-vues

CostFormer:Cost Transformer for Cost Aggregation in Multi-view Stereo

May 17, 2023
Auteurs: Weitao Chen, Hongbin Xu, Zhipeng Zhou, Yang Liu, Baigui Sun, Wenxiong Kang, Xuansong Xie
cs.AI

Résumé

Le cœur de la stéréo multi-vues (Multi-view Stereo, MVS) repose sur le processus d'appariement entre les pixels de référence et les pixels sources. L'agrégation des coûts joue un rôle crucial dans ce processus, tandis que les méthodes précédentes se concentrent sur sa gestion via des réseaux de neurones convolutifs (CNNs). Cela peut hériter de la limitation naturelle des CNNs, qui échouent à discriminer les correspondances répétitives ou incorrectes en raison de leurs champs récepteurs locaux limités. Pour résoudre ce problème, nous visons à intégrer le Transformer dans l'agrégation des coûts. Cependant, un autre problème peut survenir en raison de la complexité computationnelle qui croît de manière quadratique avec le Transformer, entraînant un débordement de mémoire et une latence d'inférence. Dans cet article, nous surmontons ces limites avec un réseau d'agrégation des coûts basé sur le Transformer, nommé CostFormer. Le Transformer de Coût Résiduel Sensible à la Profondeur (Residual Depth-Aware Cost Transformer, RDACT) est proposé pour agréger des caractéristiques à longue portée sur le volume de coût via des mécanismes d'auto-attention le long des dimensions de profondeur et spatiales. De plus, le Transformer de Régression Résiduelle (Residual Regression Transformer, RRT) est proposé pour renforcer l'attention spatiale. La méthode proposée est un module universel qui peut être intégré pour améliorer les méthodes MVS basées sur l'apprentissage.
English
The core of Multi-view Stereo(MVS) is the matching process among reference and source pixels. Cost aggregation plays a significant role in this process, while previous methods focus on handling it via CNNs. This may inherit the natural limitation of CNNs that fail to discriminate repetitive or incorrect matches due to limited local receptive fields. To handle the issue, we aim to involve Transformer into cost aggregation. However, another problem may occur due to the quadratically growing computational complexity caused by Transformer, resulting in memory overflow and inference latency. In this paper, we overcome these limits with an efficient Transformer-based cost aggregation network, namely CostFormer. The Residual Depth-Aware Cost Transformer(RDACT) is proposed to aggregate long-range features on cost volume via self-attention mechanisms along the depth and spatial dimensions. Furthermore, Residual Regression Transformer(RRT) is proposed to enhance spatial attention. The proposed method is a universal plug-in to improve learning-based MVS methods.
PDF10December 15, 2024