3DiffTection : Détection d'objets 3D avec des caractéristiques de diffusion prenant en compte la géométrie
3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features
November 7, 2023
Auteurs: Chenfeng Xu, Huan Ling, Sanja Fidler, Or Litany
cs.AI
Résumé
Nous présentons 3DiffTection, une méthode de pointe pour la détection d'objets 3D à partir d'images uniques, exploitant les caractéristiques d'un modèle de diffusion conscient de la 3D. L'annotation de données d'images à grande échelle pour la détection 3D est coûteuse en ressources et chronophage. Récemment, les modèles de diffusion d'images pré-entraînés à grande échelle sont devenus des extracteurs de caractéristiques efficaces pour les tâches de perception 2D. Cependant, ces caractéristiques sont initialement entraînées sur des données d'images et de texte appariées, qui ne sont pas optimisées pour les tâches 3D, et présentent souvent un écart de domaine lorsqu'elles sont appliquées aux données cibles. Notre approche comble ces écarts grâce à deux stratégies de réglage spécialisées : géométrique et sémantique. Pour le réglage géométrique, nous affinons un modèle de diffusion pour effectuer la synthèse de nouvelles vues conditionnée par une seule image, en introduisant un nouvel opérateur de déformation épipolaire. Cette tâche répond à deux critères essentiels : la nécessité d'une conscience 3D et la dépendance uniquement aux données d'images posées, qui sont facilement disponibles (par exemple, à partir de vidéos) et ne nécessitent pas d'annotation manuelle. Pour l'affinement sémantique, nous entraînons davantage le modèle sur les données cibles avec une supervision de détection. Les deux phases de réglage utilisent ControlNet pour préserver l'intégrité des capacités de caractéristiques originales. Dans l'étape finale, nous exploitons ces capacités améliorées pour effectuer un ensemble de prédictions au moment du test à travers plusieurs points de vue virtuels. Grâce à notre méthodologie, nous obtenons des caractéristiques conscientes de la 3D qui sont adaptées à la détection 3D et excellent dans l'identification des correspondances de points entre les vues. Par conséquent, notre modèle se révèle être un détecteur 3D puissant, surpassant largement les références précédentes, par exemple, Cube-RCNN, un précédent dans la détection 3D à vue unique de 9,43 % en AP3D sur le jeu de données Omni3D-ARkitscene. De plus, 3DiffTection démontre une robuste efficacité des données et une généralisation aux données inter-domaines.
English
We present 3DiffTection, a state-of-the-art method for 3D object detection
from single images, leveraging features from a 3D-aware diffusion model.
Annotating large-scale image data for 3D detection is resource-intensive and
time-consuming. Recently, pretrained large image diffusion models have become
prominent as effective feature extractors for 2D perception tasks. However,
these features are initially trained on paired text and image data, which are
not optimized for 3D tasks, and often exhibit a domain gap when applied to the
target data. Our approach bridges these gaps through two specialized tuning
strategies: geometric and semantic. For geometric tuning, we fine-tune a
diffusion model to perform novel view synthesis conditioned on a single image,
by introducing a novel epipolar warp operator. This task meets two essential
criteria: the necessity for 3D awareness and reliance solely on posed image
data, which are readily available (e.g., from videos) and does not require
manual annotation. For semantic refinement, we further train the model on
target data with detection supervision. Both tuning phases employ ControlNet to
preserve the integrity of the original feature capabilities. In the final step,
we harness these enhanced capabilities to conduct a test-time prediction
ensemble across multiple virtual viewpoints. Through our methodology, we obtain
3D-aware features that are tailored for 3D detection and excel in identifying
cross-view point correspondences. Consequently, our model emerges as a powerful
3D detector, substantially surpassing previous benchmarks, e.g., Cube-RCNN, a
precedent in single-view 3D detection by 9.43\% in AP3D on the
Omni3D-ARkitscene dataset. Furthermore, 3DiffTection showcases robust data
efficiency and generalization to cross-domain data.