NU-MCC: 이웃 디코더와 반발성 UDF를 활용한 다중뷰 압축 코딩
NU-MCC: Multiview Compressive Coding with Neighborhood Decoder and Repulsive UDF
July 18, 2023
저자: Stefan Lionar, Xiangyu Xu, Min Lin, Gim Hee Lee
cs.AI
초록
단일 뷰 RGB-D 입력을 기반으로 한 3D 재구성 분야에서 놀라운 진전이 이루어졌습니다. MCC는 이 분야에서 현재 최첨단 기술로, 비전 트랜스포머와 대규모 학습을 결합하여 전례 없는 성공을 거두었습니다. 그러나 우리는 MCC의 두 가지 주요 한계를 확인했습니다: 1) 트랜스포머 디코더가 대량의 쿼리 포인트를 처리하는 데 비효율적이며, 2) 3D 표현이 고해상도 디테일을 복원하는 데 어려움을 겪는다는 점입니다. 본 논문에서는 이러한 한계를 해결하기 위해 NU-MCC라는 새로운 접근 방식을 제안합니다. NU-MCC는 두 가지 주요 혁신을 포함합니다: Neighborhood 디코더와 Repulsive Unsigned Distance Function (Repulsive UDF)입니다. 먼저, Neighborhood 디코더는 입력 시각적 특징의 효율적인 프록시로 중심 포인트를 도입하여 각 쿼리 포인트가 작은 이웃에만 주의를 기울이도록 합니다. 이 설계는 더 빠른 추론 속도를 제공할 뿐만 아니라 더 미세한 스케일의 시각적 특징을 활용하여 3D 텍스처 복원을 개선합니다. 둘째, Repulsive UDF는 MCC에서 사용되는 점유 필드(occupancy field)의 새로운 대안으로, 3D 객체 재구성의 품질을 크게 향상시킵니다. 결과물에 구멍이 생기는 문제가 있는 표준 UDF와 비교하여, 우리가 제안한 Repulsive UDF는 더 완전한 표면 재구성을 달성할 수 있습니다. 실험 결과는 NU-MCC가 강력한 3D 표현을 학습할 수 있음을 보여주며, 단일 뷰 3D 재구성 분야의 최신 기술을 크게 발전시켰습니다. 특히, CO3D-v2 데이터셋에서 F1 점수 기준으로 MCC를 9.7% 앞섰으며, 실행 속도는 5배 이상 빨라졌습니다.
English
Remarkable progress has been made in 3D reconstruction from single-view RGB-D
inputs. MCC is the current state-of-the-art method in this field, which
achieves unprecedented success by combining vision Transformers with
large-scale training. However, we identified two key limitations of MCC: 1) The
Transformer decoder is inefficient in handling large number of query points; 2)
The 3D representation struggles to recover high-fidelity details. In this
paper, we propose a new approach called NU-MCC that addresses these
limitations. NU-MCC includes two key innovations: a Neighborhood decoder and a
Repulsive Unsigned Distance Function (Repulsive UDF). First, our Neighborhood
decoder introduces center points as an efficient proxy of input visual
features, allowing each query point to only attend to a small neighborhood.
This design not only results in much faster inference speed but also enables
the exploitation of finer-scale visual features for improved recovery of 3D
textures. Second, our Repulsive UDF is a novel alternative to the occupancy
field used in MCC, significantly improving the quality of 3D object
reconstruction. Compared to standard UDFs that suffer from holes in results,
our proposed Repulsive UDF can achieve more complete surface reconstruction.
Experimental results demonstrate that NU-MCC is able to learn a strong 3D
representation, significantly advancing the state of the art in single-view 3D
reconstruction. Particularly, it outperforms MCC by 9.7% in terms of the
F1-score on the CO3D-v2 dataset with more than 5x faster running speed.