MonoPlace3D : Apprentissage du placement d'objets en 3D pour la détection monoculaire 3D
MonoPlace3D: Learning 3D-Aware Object Placement for 3D Monocular Detection
April 9, 2025
Auteurs: Rishubh Parihar, Srinjay Sarkar, Sarthak Vora, Jogendra Kundu, R. Venkatesh Babu
cs.AI
Résumé
Les détecteurs monoculaires 3D actuels sont limités par la diversité et l'échelle restreintes des ensembles de données du monde réel. Bien que l'augmentation des données soit certainement utile, il est particulièrement difficile de générer des données augmentées réalistes et conscientes de la scène pour des environnements extérieurs. La plupart des approches actuelles de génération de données synthétiques se concentrent sur l'apparence réaliste des objets grâce à des techniques de rendu améliorées. Cependant, nous montrons que la position et la manière dont les objets sont placés sont tout aussi cruciales pour entraîner des détecteurs monoculaires 3D efficaces. L'obstacle principal réside dans la détermination automatique des paramètres de placement réalistes des objets - incluant la position, les dimensions et l'alignement directionnel lors de l'introduction d'objets synthétiques dans des scènes réelles. Pour résoudre ce problème, nous introduisons MonoPlace3D, un système novateur qui prend en compte le contenu 3D de la scène pour créer des augmentations réalistes. Plus précisément, étant donné une scène de fond, MonoPlace3D apprend une distribution sur des boîtes englobantes 3D plausibles. Ensuite, nous rendons des objets réalistes et les plaçons selon les emplacements échantillonnés à partir de la distribution apprise. Notre évaluation approfondie sur deux ensembles de données standard, KITTI et NuScenes, démontre que MonoPlace3D améliore significativement la précision de plusieurs détecteurs monoculaires 3D existants tout en étant très efficace en termes de données.
English
Current monocular 3D detectors are held back by the limited diversity and
scale of real-world datasets. While data augmentation certainly helps, it's
particularly difficult to generate realistic scene-aware augmented data for
outdoor settings. Most current approaches to synthetic data generation focus on
realistic object appearance through improved rendering techniques. However, we
show that where and how objects are positioned is just as crucial for training
effective 3D monocular detectors. The key obstacle lies in automatically
determining realistic object placement parameters - including position,
dimensions, and directional alignment when introducing synthetic objects into
actual scenes. To address this, we introduce MonoPlace3D, a novel system that
considers the 3D scene content to create realistic augmentations. Specifically,
given a background scene, MonoPlace3D learns a distribution over plausible 3D
bounding boxes. Subsequently, we render realistic objects and place them
according to the locations sampled from the learned distribution. Our
comprehensive evaluation on two standard datasets KITTI and NuScenes,
demonstrates that MonoPlace3D significantly improves the accuracy of multiple
existing monocular 3D detectors while being highly data efficient.Summary
AI-Generated Summary