3DiffTection: Detecção de Objetos 3D com Características de Difusão Conscientes da Geometria

Resumo

Apresentamos o 3DiffTection, um método de ponta para detecção de objetos 3D a partir de imagens únicas, que utiliza recursos de um modelo de difusão com consciência 3D. A anotação de dados de imagem em grande escala para detecção 3D é intensiva em recursos e consome muito tempo. Recentemente, modelos de difusão de imagem pré-treinados em larga escala tornaram-se proeminentes como extratores de recursos eficazes para tarefas de percepção 2D. No entanto, esses recursos são inicialmente treinados em dados pareados de texto e imagem, que não são otimizados para tarefas 3D, e frequentemente apresentam uma lacuna de domínio quando aplicados aos dados de destino. Nossa abordagem preenche essas lacunas por meio de duas estratégias de ajuste especializadas: geométrica e semântica. Para o ajuste geométrico, refinamos um modelo de difusão para realizar a síntese de novas visões condicionada a uma única imagem, introduzindo um novo operador de deformação epipolar. Essa tarefa atende a dois critérios essenciais: a necessidade de consciência 3D e a dependência exclusiva de dados de imagem posicionados, que estão prontamente disponíveis (por exemplo, de vídeos) e não exigem anotação manual. Para o refinamento semântico, treinamos ainda mais o modelo em dados de destino com supervisão de detecção. Ambas as fases de ajuste empregam o ControlNet para preservar a integridade das capacidades originais dos recursos. Na etapa final, aproveitamos essas capacidades aprimoradas para realizar um ensemble de previsão em tempo de teste em múltiplos pontos de vista virtuais. Por meio de nossa metodologia, obtemos recursos com consciência 3D que são adaptados para detecção 3D e se destacam na identificação de correspondências de pontos entre visões. Consequentemente, nosso modelo surge como um poderoso detector 3D, superando substancialmente benchmarks anteriores, por exemplo, o Cube-RCNN, um precedente em detecção 3D de visão única, em 9,43% no AP3D no conjunto de dados Omni3D-ARkitscene. Além disso, o 3DiffTection demonstra robusta eficiência de dados e generalização para dados de domínios cruzados.

English

We present 3DiffTection, a state-of-the-art method for 3D object detection from single images, leveraging features from a 3D-aware diffusion model. Annotating large-scale image data for 3D detection is resource-intensive and time-consuming. Recently, pretrained large image diffusion models have become prominent as effective feature extractors for 2D perception tasks. However, these features are initially trained on paired text and image data, which are not optimized for 3D tasks, and often exhibit a domain gap when applied to the target data. Our approach bridges these gaps through two specialized tuning strategies: geometric and semantic. For geometric tuning, we fine-tune a diffusion model to perform novel view synthesis conditioned on a single image, by introducing a novel epipolar warp operator. This task meets two essential criteria: the necessity for 3D awareness and reliance solely on posed image data, which are readily available (e.g., from videos) and does not require manual annotation. For semantic refinement, we further train the model on target data with detection supervision. Both tuning phases employ ControlNet to preserve the integrity of the original feature capabilities. In the final step, we harness these enhanced capabilities to conduct a test-time prediction ensemble across multiple virtual viewpoints. Through our methodology, we obtain 3D-aware features that are tailored for 3D detection and excel in identifying cross-view point correspondences. Consequently, our model emerges as a powerful 3D detector, substantially surpassing previous benchmarks, e.g., Cube-RCNN, a precedent in single-view 3D detection by 9.43\% in AP3D on the Omni3D-ARkitscene dataset. Furthermore, 3DiffTection showcases robust data efficiency and generalization to cross-domain data.

3DiffTection: Detecção de Objetos 3D com Características de Difusão Conscientes da Geometria

3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features

Resumo

Support