ChatPaper.aiChatPaper

NU-MCC: Multiview Compressive Coding mit Nachbarschafts-Decoder und abstoßender UDF

NU-MCC: Multiview Compressive Coding with Neighborhood Decoder and Repulsive UDF

July 18, 2023
Autoren: Stefan Lionar, Xiangyu Xu, Min Lin, Gim Hee Lee
cs.AI

Zusammenfassung

Bemerkenswerte Fortschritte wurden bei der 3D-Rekonstruktion aus Single-View-RGB-D-Eingaben erzielt. MCC ist derzeit die state-of-the-art Methode in diesem Bereich, die durch die Kombination von Vision-Transformern mit groß angelegtem Training beispiellose Erfolge erzielt. Wir haben jedoch zwei wesentliche Einschränkungen von MCC identifiziert: 1) Der Transformer-Decoder ist ineffizient bei der Verarbeitung einer großen Anzahl von Abfragepunkten; 2) Die 3D-Darstellung hat Schwierigkeiten, hochauflösende Details wiederherzustellen. In diesem Artikel schlagen wir einen neuen Ansatz namens NU-MCC vor, der diese Einschränkungen adressiert. NU-MCC umfasst zwei Schlüsselinnovationen: einen Neighborhood-Decoder und eine Repulsive Unsigned Distance Function (Repulsive UDF). Erstens führt unser Neighborhood-Decoder Mittelpunkte als effiziente Stellvertreter für die Eingabevisuellen Merkmale ein, wodurch jeder Abfragepunkt nur eine kleine Nachbarschaft berücksichtigt. Dieses Design führt nicht nur zu einer deutlich schnelleren Inferenzgeschwindigkeit, sondern ermöglicht auch die Nutzung feinerer visueller Merkmale für eine verbesserte Wiederherstellung von 3D-Texturen. Zweitens ist unsere Repulsive UDF eine neuartige Alternative zum in MCC verwendeten Occupancy Field, die die Qualität der 3D-Objekt-Rekonstruktion erheblich verbessert. Im Vergleich zu Standard-UDFs, die unter Löchern in den Ergebnissen leiden, kann unsere vorgeschlagene Repulsive UDF eine vollständigere Oberflächenrekonstruktion erreichen. Experimentelle Ergebnisse zeigen, dass NU-MCC in der Lage ist, eine starke 3D-Darstellung zu erlernen und den Stand der Technik in der Single-View-3D-Rekonstruktion erheblich voranzutreiben. Insbesondere übertrifft es MCC um 9,7 % in Bezug auf den F1-Score auf dem CO3D-v2-Datensatz bei mehr als 5-facher Laufgeschwindigkeit.
English
Remarkable progress has been made in 3D reconstruction from single-view RGB-D inputs. MCC is the current state-of-the-art method in this field, which achieves unprecedented success by combining vision Transformers with large-scale training. However, we identified two key limitations of MCC: 1) The Transformer decoder is inefficient in handling large number of query points; 2) The 3D representation struggles to recover high-fidelity details. In this paper, we propose a new approach called NU-MCC that addresses these limitations. NU-MCC includes two key innovations: a Neighborhood decoder and a Repulsive Unsigned Distance Function (Repulsive UDF). First, our Neighborhood decoder introduces center points as an efficient proxy of input visual features, allowing each query point to only attend to a small neighborhood. This design not only results in much faster inference speed but also enables the exploitation of finer-scale visual features for improved recovery of 3D textures. Second, our Repulsive UDF is a novel alternative to the occupancy field used in MCC, significantly improving the quality of 3D object reconstruction. Compared to standard UDFs that suffer from holes in results, our proposed Repulsive UDF can achieve more complete surface reconstruction. Experimental results demonstrate that NU-MCC is able to learn a strong 3D representation, significantly advancing the state of the art in single-view 3D reconstruction. Particularly, it outperforms MCC by 9.7% in terms of the F1-score on the CO3D-v2 dataset with more than 5x faster running speed.
PDF90December 15, 2024