ChatPaper.aiChatPaper

NU-MCC:近傍デコーダと反発型UDFを用いたマルチビュー圧縮符号化

NU-MCC: Multiview Compressive Coding with Neighborhood Decoder and Repulsive UDF

July 18, 2023
著者: Stefan Lionar, Xiangyu Xu, Min Lin, Gim Hee Lee
cs.AI

要旨

単一視点RGB-D入力からの3D再構成において、目覚ましい進展が見られています。MCCはこの分野における現在の最先端手法であり、ビジョントランスフォーマーと大規模トレーニングを組み合わせることで前例のない成功を収めています。しかし、我々はMCCの2つの主要な限界を特定しました:1)トランスフォーマーデコーダーが大量のクエリポイントを効率的に処理できないこと、2)3D表現が高精細なディテールの復元に苦戦することです。本論文では、これらの限界を解決する新しいアプローチNU-MCCを提案します。NU-MCCは、NeighborhoodデコーダーとRepulsive Unsigned Distance Function(Repulsive UDF)という2つの主要な革新を含んでいます。まず、Neighborhoodデコーダーは、入力視覚特徴の効率的なプロキシとして中心点を導入し、各クエリポイントが小さな近傍のみに注意を向けることを可能にします。この設計により、推論速度が大幅に向上するだけでなく、より細かいスケールの視覚特徴を活用して3Dテクスチャの復元を改善することができます。次に、Repulsive UDFは、MCCで使用される占有場の新たな代替手段であり、3Dオブジェクト再構成の品質を大幅に向上させます。結果に穴が生じる標準的なUDFと比較して、提案するRepulsive UDFはより完全な表面再構成を実現できます。実験結果は、NU-MCCが強力な3D表現を学習できることを示しており、単一視点3D再構成の最先端技術を大幅に進歩させています。特に、CO3D-v2データセットにおいてF1スコアでMCCを9.7%上回り、実行速度も5倍以上高速化されています。
English
Remarkable progress has been made in 3D reconstruction from single-view RGB-D inputs. MCC is the current state-of-the-art method in this field, which achieves unprecedented success by combining vision Transformers with large-scale training. However, we identified two key limitations of MCC: 1) The Transformer decoder is inefficient in handling large number of query points; 2) The 3D representation struggles to recover high-fidelity details. In this paper, we propose a new approach called NU-MCC that addresses these limitations. NU-MCC includes two key innovations: a Neighborhood decoder and a Repulsive Unsigned Distance Function (Repulsive UDF). First, our Neighborhood decoder introduces center points as an efficient proxy of input visual features, allowing each query point to only attend to a small neighborhood. This design not only results in much faster inference speed but also enables the exploitation of finer-scale visual features for improved recovery of 3D textures. Second, our Repulsive UDF is a novel alternative to the occupancy field used in MCC, significantly improving the quality of 3D object reconstruction. Compared to standard UDFs that suffer from holes in results, our proposed Repulsive UDF can achieve more complete surface reconstruction. Experimental results demonstrate that NU-MCC is able to learn a strong 3D representation, significantly advancing the state of the art in single-view 3D reconstruction. Particularly, it outperforms MCC by 9.7% in terms of the F1-score on the CO3D-v2 dataset with more than 5x faster running speed.
PDF90December 15, 2024