MonoPlace3D : Apprentissage du placement d'objets en 3D pour la détection monoculaire 3D

papers.abstract

Les détecteurs monoculaires 3D actuels sont limités par la diversité et l'échelle restreintes des ensembles de données du monde réel. Bien que l'augmentation des données soit certainement utile, il est particulièrement difficile de générer des données augmentées réalistes et conscientes de la scène pour des environnements extérieurs. La plupart des approches actuelles de génération de données synthétiques se concentrent sur l'apparence réaliste des objets grâce à des techniques de rendu améliorées. Cependant, nous montrons que la position et la manière dont les objets sont placés sont tout aussi cruciales pour entraîner des détecteurs monoculaires 3D efficaces. L'obstacle principal réside dans la détermination automatique des paramètres de placement réalistes des objets - incluant la position, les dimensions et l'alignement directionnel lors de l'introduction d'objets synthétiques dans des scènes réelles. Pour résoudre ce problème, nous introduisons MonoPlace3D, un système novateur qui prend en compte le contenu 3D de la scène pour créer des augmentations réalistes. Plus précisément, étant donné une scène de fond, MonoPlace3D apprend une distribution sur des boîtes englobantes 3D plausibles. Ensuite, nous rendons des objets réalistes et les plaçons selon les emplacements échantillonnés à partir de la distribution apprise. Notre évaluation approfondie sur deux ensembles de données standard, KITTI et NuScenes, démontre que MonoPlace3D améliore significativement la précision de plusieurs détecteurs monoculaires 3D existants tout en étant très efficace en termes de données.

English

Current monocular 3D detectors are held back by the limited diversity and scale of real-world datasets. While data augmentation certainly helps, it's particularly difficult to generate realistic scene-aware augmented data for outdoor settings. Most current approaches to synthetic data generation focus on realistic object appearance through improved rendering techniques. However, we show that where and how objects are positioned is just as crucial for training effective 3D monocular detectors. The key obstacle lies in automatically determining realistic object placement parameters - including position, dimensions, and directional alignment when introducing synthetic objects into actual scenes. To address this, we introduce MonoPlace3D, a novel system that considers the 3D scene content to create realistic augmentations. Specifically, given a background scene, MonoPlace3D learns a distribution over plausible 3D bounding boxes. Subsequently, we render realistic objects and place them according to the locations sampled from the learned distribution. Our comprehensive evaluation on two standard datasets KITTI and NuScenes, demonstrates that MonoPlace3D significantly improves the accuracy of multiple existing monocular 3D detectors while being highly data efficient.

MonoPlace3D : Apprentissage du placement d'objets en 3D pour la détection monoculaire 3D

MonoPlace3D: Learning 3D-Aware Object Placement for 3D Monocular Detection

papers.abstract

Support