NU-MCC: Codificación Compresiva Multivista con Decodificador de Vecindad y UDF Repulsivo
NU-MCC: Multiview Compressive Coding with Neighborhood Decoder and Repulsive UDF
July 18, 2023
Autores: Stefan Lionar, Xiangyu Xu, Min Lin, Gim Hee Lee
cs.AI
Resumen
Se han logrado avances notables en la reconstrucción 3D a partir de entradas RGB-D de una sola vista. MCC es el método más avanzado actualmente en este campo, que alcanza un éxito sin precedentes al combinar Transformers de visión con entrenamiento a gran escala. Sin embargo, identificamos dos limitaciones clave de MCC: 1) El decodificador Transformer es ineficiente para manejar un gran número de puntos de consulta; 2) La representación 3D tiene dificultades para recuperar detalles de alta fidelidad. En este artículo, proponemos un nuevo enfoque llamado NU-MCC que aborda estas limitaciones. NU-MCC incluye dos innovaciones clave: un decodificador de Vecindario y una Función de Distancia Sin Signo Repulsiva (Repulsive UDF). Primero, nuestro decodificador de Vecindario introduce puntos centrales como un proxy eficiente de las características visuales de entrada, permitiendo que cada punto de consulta solo atienda a un pequeño vecindario. Este diseño no solo resulta en una velocidad de inferencia mucho más rápida, sino que también permite la explotación de características visuales a escala más fina para una mejor recuperación de texturas 3D. Segundo, nuestra Repulsive UDF es una alternativa novedosa al campo de ocupación utilizado en MCC, mejorando significativamente la calidad de la reconstrucción de objetos 3D. En comparación con las UDF estándar que sufren de agujeros en los resultados, nuestra Repulsive UDF propuesta puede lograr una reconstrucción de superficie más completa. Los resultados experimentales demuestran que NU-MCC es capaz de aprender una representación 3D sólida, avanzando significativamente el estado del arte en la reconstrucción 3D de una sola vista. En particular, supera a MCC en un 9.7% en términos de puntuación F1 en el conjunto de datos CO3D-v2 con una velocidad de ejecución más de 5 veces más rápida.
English
Remarkable progress has been made in 3D reconstruction from single-view RGB-D
inputs. MCC is the current state-of-the-art method in this field, which
achieves unprecedented success by combining vision Transformers with
large-scale training. However, we identified two key limitations of MCC: 1) The
Transformer decoder is inefficient in handling large number of query points; 2)
The 3D representation struggles to recover high-fidelity details. In this
paper, we propose a new approach called NU-MCC that addresses these
limitations. NU-MCC includes two key innovations: a Neighborhood decoder and a
Repulsive Unsigned Distance Function (Repulsive UDF). First, our Neighborhood
decoder introduces center points as an efficient proxy of input visual
features, allowing each query point to only attend to a small neighborhood.
This design not only results in much faster inference speed but also enables
the exploitation of finer-scale visual features for improved recovery of 3D
textures. Second, our Repulsive UDF is a novel alternative to the occupancy
field used in MCC, significantly improving the quality of 3D object
reconstruction. Compared to standard UDFs that suffer from holes in results,
our proposed Repulsive UDF can achieve more complete surface reconstruction.
Experimental results demonstrate that NU-MCC is able to learn a strong 3D
representation, significantly advancing the state of the art in single-view 3D
reconstruction. Particularly, it outperforms MCC by 9.7% in terms of the
F1-score on the CO3D-v2 dataset with more than 5x faster running speed.