MonoPlace3D: 3D 단안 검출을 위한 3D 인식 객체 배치 학습
MonoPlace3D: Learning 3D-Aware Object Placement for 3D Monocular Detection
April 9, 2025
저자: Rishubh Parihar, Srinjay Sarkar, Sarthak Vora, Jogendra Kundu, R. Venkatesh Babu
cs.AI
초록
현재의 단안(monocular) 3D 검출기는 실제 세계 데이터셋의 제한된 다양성과 규모로 인해 발전에 한계를 겪고 있습니다. 데이터 증강(data augmentation)이 확실히 도움이 되지만, 특히 야외 환경에서 현실적인 장면 인식(scene-aware) 증강 데이터를 생성하는 것은 매우 어려운 문제입니다. 현재 대부분의 합성 데이터 생성 접근법은 개선된 렌더링 기술을 통해 현실적인 객체 외관에 초점을 맞추고 있습니다. 그러나 우리는 효과적인 단안 3D 검출기를 훈련시키기 위해 객체가 어디에, 어떻게 위치하는지가 동등하게 중요하다는 것을 보여줍니다. 주요 장애물은 실제 장면에 합성 객체를 도입할 때 현실적인 객체 배치 매개변수(위치, 크기, 방향 정렬 등)를 자동으로 결정하는 데 있습니다. 이를 해결하기 위해, 우리는 3D 장면 내용을 고려하여 현실적인 증강을 생성하는 새로운 시스템인 MonoPlace3D를 소개합니다. 구체적으로, MonoPlace3D는 주어진 배경 장면에서 가능성 있는 3D 바운딩 박스(bounding box)에 대한 분포를 학습합니다. 이후, 학습된 분포에서 샘플링된 위치에 따라 현실적인 객체를 렌더링하고 배치합니다. KITTI와 NuScenes라는 두 가지 표준 데이터셋에 대한 포괄적인 평가를 통해, MonoPlace3D가 여러 기존 단안 3D 검출기의 정확도를 크게 향상시키면서도 데이터 효율성이 매우 높음을 입증했습니다.
English
Current monocular 3D detectors are held back by the limited diversity and
scale of real-world datasets. While data augmentation certainly helps, it's
particularly difficult to generate realistic scene-aware augmented data for
outdoor settings. Most current approaches to synthetic data generation focus on
realistic object appearance through improved rendering techniques. However, we
show that where and how objects are positioned is just as crucial for training
effective 3D monocular detectors. The key obstacle lies in automatically
determining realistic object placement parameters - including position,
dimensions, and directional alignment when introducing synthetic objects into
actual scenes. To address this, we introduce MonoPlace3D, a novel system that
considers the 3D scene content to create realistic augmentations. Specifically,
given a background scene, MonoPlace3D learns a distribution over plausible 3D
bounding boxes. Subsequently, we render realistic objects and place them
according to the locations sampled from the learned distribution. Our
comprehensive evaluation on two standard datasets KITTI and NuScenes,
demonstrates that MonoPlace3D significantly improves the accuracy of multiple
existing monocular 3D detectors while being highly data efficient.Summary
AI-Generated Summary