3DiffTection: 3D-Objekterkennung mit geometriebewussten Diffusionsmerkmalen
3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features
November 7, 2023
Autoren: Chenfeng Xu, Huan Ling, Sanja Fidler, Or Litany
cs.AI
Zusammenfassung
Wir präsentieren 3DiffTection, eine state-of-the-art Methode zur 3D-Objekterkennung aus Einzelbildern, die Merkmale eines 3D-bewussten Diffusionsmodells nutzt. Die Annotation von groß angelegten Bilddaten für die 3D-Erkennung ist ressourcenintensiv und zeitaufwendig. In jüngster Zeit sind vortrainierte große Bilddiffusionsmodelle als effektive Merkmalsextraktoren für 2D-Wahrnehmungsaufgaben prominent geworden. Diese Merkmale werden jedoch zunächst auf gepaarten Text- und Bilddaten trainiert, die nicht für 3D-Aufgaben optimiert sind, und zeigen oft eine Domänenlücke, wenn sie auf die Zielsdaten angewendet werden. Unser Ansatz überbrückt diese Lücken durch zwei spezialisierte Feinabstimmungsstrategien: geometrisch und semantisch. Für die geometrische Feinabstimmung passen wir ein Diffusionsmodell an, um die Synthese neuer Ansichten basierend auf einem Einzelbild durchzuführen, indem wir einen neuartigen epipolaren Warp-Operator einführen. Diese Aufgabe erfüllt zwei wesentliche Kriterien: die Notwendigkeit für 3D-Bewusstsein und die alleinige Abhängigkeit von posierten Bilddaten, die leicht verfügbar sind (z.B. aus Videos) und keine manuelle Annotation erfordern. Für die semantische Verfeinerung trainieren wir das Modell weiter auf Zieldaten mit Erkennungsaufsicht. Beide Feinabstimmungsphasen verwenden ControlNet, um die Integrität der ursprünglichen Merkmalsfähigkeiten zu bewahren. Im letzten Schritt nutzen wir diese erweiterten Fähigkeiten, um eine Testzeit-Vorhersage-Ensemble über mehrere virtuelle Blickwinkel durchzuführen. Durch unsere Methodik erhalten wir 3D-bewusste Merkmale, die für die 3D-Erkennung maßgeschneidert sind und bei der Identifizierung von korrespondierenden Punkten über verschiedene Ansichten hervorragend abschneiden. Folglich erweist sich unser Modell als leistungsstarker 3D-Detektor, der bisherige Benchmarks deutlich übertrifft, z.B. Cube-RCNN, einen Vorreiter in der Einzelbild-3D-Erkennung, um 9,43 % in AP3D auf dem Omni3D-ARkitscene-Datensatz. Darüber hinaus zeigt 3DiffTection eine robuste Dateneffizienz und Generalisierung auf domänenübergreifende Daten.
English
We present 3DiffTection, a state-of-the-art method for 3D object detection
from single images, leveraging features from a 3D-aware diffusion model.
Annotating large-scale image data for 3D detection is resource-intensive and
time-consuming. Recently, pretrained large image diffusion models have become
prominent as effective feature extractors for 2D perception tasks. However,
these features are initially trained on paired text and image data, which are
not optimized for 3D tasks, and often exhibit a domain gap when applied to the
target data. Our approach bridges these gaps through two specialized tuning
strategies: geometric and semantic. For geometric tuning, we fine-tune a
diffusion model to perform novel view synthesis conditioned on a single image,
by introducing a novel epipolar warp operator. This task meets two essential
criteria: the necessity for 3D awareness and reliance solely on posed image
data, which are readily available (e.g., from videos) and does not require
manual annotation. For semantic refinement, we further train the model on
target data with detection supervision. Both tuning phases employ ControlNet to
preserve the integrity of the original feature capabilities. In the final step,
we harness these enhanced capabilities to conduct a test-time prediction
ensemble across multiple virtual viewpoints. Through our methodology, we obtain
3D-aware features that are tailored for 3D detection and excel in identifying
cross-view point correspondences. Consequently, our model emerges as a powerful
3D detector, substantially surpassing previous benchmarks, e.g., Cube-RCNN, a
precedent in single-view 3D detection by 9.43\% in AP3D on the
Omni3D-ARkitscene dataset. Furthermore, 3DiffTection showcases robust data
efficiency and generalization to cross-domain data.