MonoPlace3D: Aprendizaje de la colocación de objetos 3D consciente del espacio para detección monocular 3D
MonoPlace3D: Learning 3D-Aware Object Placement for 3D Monocular Detection
April 9, 2025
Autores: Rishubh Parihar, Srinjay Sarkar, Sarthak Vora, Jogendra Kundu, R. Venkatesh Babu
cs.AI
Resumen
Los detectores monoculares 3D actuales se ven limitados por la diversidad y escala reducidas de los conjuntos de datos del mundo real. Si bien la ampliación de datos ciertamente ayuda, es particularmente difícil generar datos aumentados realistas y conscientes del entorno en escenarios exteriores. La mayoría de los enfoques actuales para la generación de datos sintéticos se centran en la apariencia realista de los objetos mediante técnicas de renderizado mejoradas. Sin embargo, demostramos que el dónde y cómo se posicionan los objetos es igual de crucial para entrenar detectores monoculares 3D efectivos. El principal obstáculo radica en determinar automáticamente parámetros realistas de colocación de objetos, incluyendo posición, dimensiones y alineación direccional, al introducir objetos sintéticos en escenas reales. Para abordar esto, presentamos MonoPlace3D, un sistema novedoso que considera el contenido 3D de la escena para crear aumentaciones realistas. Específicamente, dada una escena de fondo, MonoPlace3D aprende una distribución sobre cajas delimitadoras 3D plausibles. Posteriormente, renderizamos objetos realistas y los colocamos según las ubicaciones muestreadas de la distribución aprendida. Nuestra evaluación exhaustiva en dos conjuntos de datos estándar, KITTI y NuScenes, demuestra que MonoPlace3D mejora significativamente la precisión de múltiples detectores monoculares 3D existentes, además de ser altamente eficiente en términos de datos.
English
Current monocular 3D detectors are held back by the limited diversity and
scale of real-world datasets. While data augmentation certainly helps, it's
particularly difficult to generate realistic scene-aware augmented data for
outdoor settings. Most current approaches to synthetic data generation focus on
realistic object appearance through improved rendering techniques. However, we
show that where and how objects are positioned is just as crucial for training
effective 3D monocular detectors. The key obstacle lies in automatically
determining realistic object placement parameters - including position,
dimensions, and directional alignment when introducing synthetic objects into
actual scenes. To address this, we introduce MonoPlace3D, a novel system that
considers the 3D scene content to create realistic augmentations. Specifically,
given a background scene, MonoPlace3D learns a distribution over plausible 3D
bounding boxes. Subsequently, we render realistic objects and place them
according to the locations sampled from the learned distribution. Our
comprehensive evaluation on two standard datasets KITTI and NuScenes,
demonstrates that MonoPlace3D significantly improves the accuracy of multiple
existing monocular 3D detectors while being highly data efficient.Summary
AI-Generated Summary