ChatPaper.aiChatPaper

MonoPlace3D: Aprendizado de Posicionamento 3D Consciente para Detecção Monocular 3D

MonoPlace3D: Learning 3D-Aware Object Placement for 3D Monocular Detection

April 9, 2025
Autores: Rishubh Parihar, Srinjay Sarkar, Sarthak Vora, Jogendra Kundu, R. Venkatesh Babu
cs.AI

Resumo

Os atuais detectores monoculares 3D são limitados pela diversidade e escala restritas dos conjuntos de dados do mundo real. Embora a ampliação de dados certamente ajude, é particularmente difícil gerar dados ampliados realistas e conscientes da cena para ambientes externos. A maioria das abordagens atuais para geração de dados sintéticos se concentra na aparência realista dos objetos por meio de técnicas de renderização aprimoradas. No entanto, mostramos que onde e como os objetos são posicionados é igualmente crucial para treinar detectores monoculares 3D eficazes. O principal obstáculo reside em determinar automaticamente parâmetros realistas de posicionamento de objetos - incluindo posição, dimensões e alinhamento direcional - ao introduzir objetos sintéticos em cenas reais. Para resolver isso, introduzimos o MonoPlace3D, um sistema inovador que considera o conteúdo 3D da cena para criar ampliações realistas. Especificamente, dada uma cena de fundo, o MonoPlace3D aprende uma distribuição sobre caixas delimitadoras 3D plausíveis. Posteriormente, renderizamos objetos realistas e os posicionamos de acordo com as localizações amostradas da distribuição aprendida. Nossa avaliação abrangente em dois conjuntos de dados padrão, KITTI e NuScenes, demonstra que o MonoPlace3D melhora significativamente a precisão de vários detectores monoculares 3D existentes, ao mesmo tempo em que é altamente eficiente em termos de dados.
English
Current monocular 3D detectors are held back by the limited diversity and scale of real-world datasets. While data augmentation certainly helps, it's particularly difficult to generate realistic scene-aware augmented data for outdoor settings. Most current approaches to synthetic data generation focus on realistic object appearance through improved rendering techniques. However, we show that where and how objects are positioned is just as crucial for training effective 3D monocular detectors. The key obstacle lies in automatically determining realistic object placement parameters - including position, dimensions, and directional alignment when introducing synthetic objects into actual scenes. To address this, we introduce MonoPlace3D, a novel system that considers the 3D scene content to create realistic augmentations. Specifically, given a background scene, MonoPlace3D learns a distribution over plausible 3D bounding boxes. Subsequently, we render realistic objects and place them according to the locations sampled from the learned distribution. Our comprehensive evaluation on two standard datasets KITTI and NuScenes, demonstrates that MonoPlace3D significantly improves the accuracy of multiple existing monocular 3D detectors while being highly data efficient.

Summary

AI-Generated Summary

PDF52April 11, 2025