NU-MCC:近傍デコーダと反発型UDFを用いたマルチビュー圧縮符号化
NU-MCC: Multiview Compressive Coding with Neighborhood Decoder and Repulsive UDF
July 18, 2023
著者: Stefan Lionar, Xiangyu Xu, Min Lin, Gim Hee Lee
cs.AI
要旨
単一視点RGB-D入力からの3D再構成において、目覚ましい進展が見られています。MCCはこの分野における現在の最先端手法であり、ビジョントランスフォーマーと大規模トレーニングを組み合わせることで前例のない成功を収めています。しかし、我々はMCCの2つの主要な限界を特定しました:1)トランスフォーマーデコーダーが大量のクエリポイントを効率的に処理できないこと、2)3D表現が高精細なディテールの復元に苦戦することです。本論文では、これらの限界を解決する新しいアプローチNU-MCCを提案します。NU-MCCは、NeighborhoodデコーダーとRepulsive Unsigned Distance Function(Repulsive UDF)という2つの主要な革新を含んでいます。まず、Neighborhoodデコーダーは、入力視覚特徴の効率的なプロキシとして中心点を導入し、各クエリポイントが小さな近傍のみに注意を向けることを可能にします。この設計により、推論速度が大幅に向上するだけでなく、より細かいスケールの視覚特徴を活用して3Dテクスチャの復元を改善することができます。次に、Repulsive UDFは、MCCで使用される占有場の新たな代替手段であり、3Dオブジェクト再構成の品質を大幅に向上させます。結果に穴が生じる標準的なUDFと比較して、提案するRepulsive UDFはより完全な表面再構成を実現できます。実験結果は、NU-MCCが強力な3D表現を学習できることを示しており、単一視点3D再構成の最先端技術を大幅に進歩させています。特に、CO3D-v2データセットにおいてF1スコアでMCCを9.7%上回り、実行速度も5倍以上高速化されています。
English
Remarkable progress has been made in 3D reconstruction from single-view RGB-D
inputs. MCC is the current state-of-the-art method in this field, which
achieves unprecedented success by combining vision Transformers with
large-scale training. However, we identified two key limitations of MCC: 1) The
Transformer decoder is inefficient in handling large number of query points; 2)
The 3D representation struggles to recover high-fidelity details. In this
paper, we propose a new approach called NU-MCC that addresses these
limitations. NU-MCC includes two key innovations: a Neighborhood decoder and a
Repulsive Unsigned Distance Function (Repulsive UDF). First, our Neighborhood
decoder introduces center points as an efficient proxy of input visual
features, allowing each query point to only attend to a small neighborhood.
This design not only results in much faster inference speed but also enables
the exploitation of finer-scale visual features for improved recovery of 3D
textures. Second, our Repulsive UDF is a novel alternative to the occupancy
field used in MCC, significantly improving the quality of 3D object
reconstruction. Compared to standard UDFs that suffer from holes in results,
our proposed Repulsive UDF can achieve more complete surface reconstruction.
Experimental results demonstrate that NU-MCC is able to learn a strong 3D
representation, significantly advancing the state of the art in single-view 3D
reconstruction. Particularly, it outperforms MCC by 9.7% in terms of the
F1-score on the CO3D-v2 dataset with more than 5x faster running speed.