NU-MCC: Multiview Compressieve Codering met Buurtdecoder en Afstotende UDF
NU-MCC: Multiview Compressive Coding with Neighborhood Decoder and Repulsive UDF
July 18, 2023
Auteurs: Stefan Lionar, Xiangyu Xu, Min Lin, Gim Hee Lee
cs.AI
Samenvatting
Er is opmerkelijke vooruitgang geboekt in 3D-reconstructie vanuit enkelvoudige RGB-D-invoeren. MCC is de huidige state-of-the-art methode op dit gebied, die ongekend succes behaalt door vision Transformers te combineren met grootschalige training. We hebben echter twee belangrijke beperkingen van MCC geïdentificeerd: 1) De Transformer-decoder is inefficiënt in het verwerken van een groot aantal querypunten; 2) De 3D-representatie heeft moeite om hoogwaardige details te herstellen. In dit artikel stellen we een nieuwe aanpak voor, genaamd NU-MCC, die deze beperkingen aanpakt. NU-MCC omvat twee belangrijke innovaties: een Neighborhood-decoder en een Repulsive Unsigned Distance Function (Repulsive UDF). Ten eerste introduceert onze Neighborhood-decoder centrumpunten als een efficiënte proxy van invoer visuele kenmerken, waardoor elk querypunt alleen aandacht hoeft te besteden aan een kleine omgeving. Dit ontwerp resulteert niet alleen in een veel snellere inferentiesnelheid, maar maakt ook het gebruik van fijnere visuele kenmerken mogelijk voor een verbeterd herstel van 3D-texturen. Ten tweede is onze Repulsive UDF een nieuw alternatief voor het occupancy-veld dat in MCC wordt gebruikt, wat de kwaliteit van 3D-objectreconstructie aanzienlijk verbetert. In vergelijking met standaard UDF's die last hebben van gaten in de resultaten, kan onze voorgestelde Repulsive UDF een completere oppervlakte-reconstructie bereiken. Experimentele resultaten tonen aan dat NU-MCC in staat is een sterke 3D-representatie te leren, wat de state of the art in enkelvoudige 3D-reconstructie aanzienlijk vooruit helpt. In het bijzonder presteert het 9,7% beter dan MCC in termen van de F1-score op de CO3D-v2 dataset met meer dan 5x snellere uitvoeringssnelheid.
English
Remarkable progress has been made in 3D reconstruction from single-view RGB-D
inputs. MCC is the current state-of-the-art method in this field, which
achieves unprecedented success by combining vision Transformers with
large-scale training. However, we identified two key limitations of MCC: 1) The
Transformer decoder is inefficient in handling large number of query points; 2)
The 3D representation struggles to recover high-fidelity details. In this
paper, we propose a new approach called NU-MCC that addresses these
limitations. NU-MCC includes two key innovations: a Neighborhood decoder and a
Repulsive Unsigned Distance Function (Repulsive UDF). First, our Neighborhood
decoder introduces center points as an efficient proxy of input visual
features, allowing each query point to only attend to a small neighborhood.
This design not only results in much faster inference speed but also enables
the exploitation of finer-scale visual features for improved recovery of 3D
textures. Second, our Repulsive UDF is a novel alternative to the occupancy
field used in MCC, significantly improving the quality of 3D object
reconstruction. Compared to standard UDFs that suffer from holes in results,
our proposed Repulsive UDF can achieve more complete surface reconstruction.
Experimental results demonstrate that NU-MCC is able to learn a strong 3D
representation, significantly advancing the state of the art in single-view 3D
reconstruction. Particularly, it outperforms MCC by 9.7% in terms of the
F1-score on the CO3D-v2 dataset with more than 5x faster running speed.