NU-MCC: Codificação Compressiva Multivista com Decodificador de Vizinhança e UDF Repulsivo
NU-MCC: Multiview Compressive Coding with Neighborhood Decoder and Repulsive UDF
July 18, 2023
Autores: Stefan Lionar, Xiangyu Xu, Min Lin, Gim Hee Lee
cs.AI
Resumo
Progressos notáveis foram alcançados na reconstrução 3D a partir de entradas RGB-D de visão única. O MCC é o método estado da arte atual nesse campo, que alcança sucesso sem precedentes ao combinar Transformers de visão com treinamento em larga escala. No entanto, identificamos duas limitações principais do MCC: 1) O decodificador Transformer é ineficiente ao lidar com um grande número de pontos de consulta; 2) A representação 3D tem dificuldade em recuperar detalhes de alta fidelidade. Neste artigo, propomos uma nova abordagem chamada NU-MCC que aborda essas limitações. O NU-MCC inclui duas inovações principais: um decodificador de vizinhança e uma Função de Distância Não Assinada Repulsiva (Repulsive UDF). Primeiro, nosso decodificador de vizinhança introduz pontos centrais como um proxy eficiente das características visuais de entrada, permitindo que cada ponto de consulta atenda apenas a uma pequena vizinhança. Esse design não apenas resulta em uma velocidade de inferência muito mais rápida, mas também permite a exploração de características visuais em escala mais fina para uma recuperação aprimorada das texturas 3D. Segundo, nossa Repulsive UDF é uma alternativa inovadora ao campo de ocupação usado no MCC, melhorando significativamente a qualidade da reconstrução de objetos 3D. Comparada às UDFs padrão que sofrem com buracos nos resultados, nossa Repulsive UDF proposta pode alcançar uma reconstrução de superfície mais completa. Resultados experimentais demonstram que o NU-MCC é capaz de aprender uma representação 3D robusta, avançando significativamente o estado da arte na reconstrução 3D de visão única. Particularmente, ele supera o MCC em 9,7% em termos de F1-score no conjunto de dados CO3D-v2, com uma velocidade de execução mais de 5 vezes mais rápida.
English
Remarkable progress has been made in 3D reconstruction from single-view RGB-D
inputs. MCC is the current state-of-the-art method in this field, which
achieves unprecedented success by combining vision Transformers with
large-scale training. However, we identified two key limitations of MCC: 1) The
Transformer decoder is inefficient in handling large number of query points; 2)
The 3D representation struggles to recover high-fidelity details. In this
paper, we propose a new approach called NU-MCC that addresses these
limitations. NU-MCC includes two key innovations: a Neighborhood decoder and a
Repulsive Unsigned Distance Function (Repulsive UDF). First, our Neighborhood
decoder introduces center points as an efficient proxy of input visual
features, allowing each query point to only attend to a small neighborhood.
This design not only results in much faster inference speed but also enables
the exploitation of finer-scale visual features for improved recovery of 3D
textures. Second, our Repulsive UDF is a novel alternative to the occupancy
field used in MCC, significantly improving the quality of 3D object
reconstruction. Compared to standard UDFs that suffer from holes in results,
our proposed Repulsive UDF can achieve more complete surface reconstruction.
Experimental results demonstrate that NU-MCC is able to learn a strong 3D
representation, significantly advancing the state of the art in single-view 3D
reconstruction. Particularly, it outperforms MCC by 9.7% in terms of the
F1-score on the CO3D-v2 dataset with more than 5x faster running speed.