NU-MCC: Codifica Compressiva Multivista con Decodificatore a Vicinato e Funzione di Distanza Repulsiva (UDF)
NU-MCC: Multiview Compressive Coding with Neighborhood Decoder and Repulsive UDF
July 18, 2023
Autori: Stefan Lionar, Xiangyu Xu, Min Lin, Gim Hee Lee
cs.AI
Abstract
Sono stati compiuti notevoli progressi nella ricostruzione 3D a partire da input RGB-D a singola vista. MCC rappresenta attualmente il metodo più avanzato in questo campo, ottenendo un successo senza precedenti combinando i Transformer visivi con un addestramento su larga scala. Tuttavia, abbiamo identificato due limitazioni chiave di MCC: 1) Il decoder Transformer è inefficiente nel gestire un numero elevato di punti di query; 2) La rappresentazione 3D fatica a recuperare dettagli ad alta fedeltà. In questo articolo, proponiamo un nuovo approccio chiamato NU-MCC che affronta queste limitazioni. NU-MCC include due innovazioni chiave: un decoder di vicinato e una funzione di distanza senza segno repulsiva (Repulsive UDF). In primo luogo, il nostro decoder di vicinato introduce punti centrali come un proxy efficiente delle caratteristiche visive di input, consentendo a ciascun punto di query di considerare solo un piccolo vicinato. Questo design non solo porta a una velocità di inferenza molto più rapida, ma permette anche di sfruttare caratteristiche visive a scala più fine per un miglior recupero delle texture 3D. In secondo luogo, la nostra Repulsive UDF è una nuova alternativa al campo di occupazione utilizzato in MCC, migliorando significativamente la qualità della ricostruzione degli oggetti 3D. Rispetto alle UDF standard che soffrono di buchi nei risultati, la nostra Repulsive UDF proposta può ottenere una ricostruzione della superficie più completa. I risultati sperimentali dimostrano che NU-MCC è in grado di apprendere una rappresentazione 3D robusta, avanzando significativamente lo stato dell'arte nella ricostruzione 3D a singola vista. In particolare, supera MCC del 9,7% in termini di F1-score sul dataset CO3D-v2 con una velocità di esecuzione più di 5 volte superiore.
English
Remarkable progress has been made in 3D reconstruction from single-view RGB-D
inputs. MCC is the current state-of-the-art method in this field, which
achieves unprecedented success by combining vision Transformers with
large-scale training. However, we identified two key limitations of MCC: 1) The
Transformer decoder is inefficient in handling large number of query points; 2)
The 3D representation struggles to recover high-fidelity details. In this
paper, we propose a new approach called NU-MCC that addresses these
limitations. NU-MCC includes two key innovations: a Neighborhood decoder and a
Repulsive Unsigned Distance Function (Repulsive UDF). First, our Neighborhood
decoder introduces center points as an efficient proxy of input visual
features, allowing each query point to only attend to a small neighborhood.
This design not only results in much faster inference speed but also enables
the exploitation of finer-scale visual features for improved recovery of 3D
textures. Second, our Repulsive UDF is a novel alternative to the occupancy
field used in MCC, significantly improving the quality of 3D object
reconstruction. Compared to standard UDFs that suffer from holes in results,
our proposed Repulsive UDF can achieve more complete surface reconstruction.
Experimental results demonstrate that NU-MCC is able to learn a strong 3D
representation, significantly advancing the state of the art in single-view 3D
reconstruction. Particularly, it outperforms MCC by 9.7% in terms of the
F1-score on the CO3D-v2 dataset with more than 5x faster running speed.