NU-MCC : Codage Compressif Multivue avec Décodeur de Voisinage et Fonction de Distance Répulsive (UDF)
NU-MCC: Multiview Compressive Coding with Neighborhood Decoder and Repulsive UDF
July 18, 2023
Auteurs: Stefan Lionar, Xiangyu Xu, Min Lin, Gim Hee Lee
cs.AI
Résumé
Des progrès remarquables ont été réalisés dans la reconstruction 3D à partir d'entrées RGB-D monoculaires. MCC est actuellement la méthode de pointe dans ce domaine, obtenant un succès sans précédent en combinant des Transformers visuels avec un entraînement à grande échelle. Cependant, nous avons identifié deux limitations majeures de MCC : 1) Le décodeur Transformer est inefficace pour gérer un grand nombre de points de requête ; 2) La représentation 3D peine à restituer des détails de haute fidélité. Dans cet article, nous proposons une nouvelle approche appelée NU-MCC qui résout ces limitations. NU-MCC intègre deux innovations clés : un décodeur de voisinage et une fonction de distance non signée répulsive (Repulsive UDF). Premièrement, notre décodeur de voisinage introduit des points centraux comme proxy efficace des caractéristiques visuelles d'entrée, permettant à chaque point de requête de ne s'intéresser qu'à un petit voisinage. Cette conception permet non seulement une vitesse d'inférence bien plus rapide, mais aussi l'exploitation de caractéristiques visuelles à plus fine échelle pour une meilleure restitution des textures 3D. Deuxièmement, notre Repulsive UDF est une alternative novatrice au champ d'occupation utilisé dans MCC, améliorant significativement la qualité de la reconstruction d'objets 3D. Contrairement aux UDF standards qui produisent des trous dans les résultats, notre Repulsive UDF permet une reconstruction de surface plus complète. Les résultats expérimentaux montrent que NU-MCC est capable d'apprendre une représentation 3D robuste, faisant progresser de manière significative l'état de l'art en reconstruction 3D monoculaire. En particulier, il surpasse MCC de 9,7 % en termes de score F1 sur le jeu de données CO3D-v2, avec une vitesse d'exécution plus de 5 fois supérieure.
English
Remarkable progress has been made in 3D reconstruction from single-view RGB-D
inputs. MCC is the current state-of-the-art method in this field, which
achieves unprecedented success by combining vision Transformers with
large-scale training. However, we identified two key limitations of MCC: 1) The
Transformer decoder is inefficient in handling large number of query points; 2)
The 3D representation struggles to recover high-fidelity details. In this
paper, we propose a new approach called NU-MCC that addresses these
limitations. NU-MCC includes two key innovations: a Neighborhood decoder and a
Repulsive Unsigned Distance Function (Repulsive UDF). First, our Neighborhood
decoder introduces center points as an efficient proxy of input visual
features, allowing each query point to only attend to a small neighborhood.
This design not only results in much faster inference speed but also enables
the exploitation of finer-scale visual features for improved recovery of 3D
textures. Second, our Repulsive UDF is a novel alternative to the occupancy
field used in MCC, significantly improving the quality of 3D object
reconstruction. Compared to standard UDFs that suffer from holes in results,
our proposed Repulsive UDF can achieve more complete surface reconstruction.
Experimental results demonstrate that NU-MCC is able to learn a strong 3D
representation, significantly advancing the state of the art in single-view 3D
reconstruction. Particularly, it outperforms MCC by 9.7% in terms of the
F1-score on the CO3D-v2 dataset with more than 5x faster running speed.