3DiffTection: Detección de objetos 3D con características de difusión conscientes de la geometría

Resumen

Presentamos 3DiffTection, un método de vanguardia para la detección de objetos 3D a partir de imágenes individuales, que aprovecha las características de un modelo de difusión consciente de la 3D. Anotar datos de imágenes a gran escala para la detección 3D es intensivo en recursos y consume mucho tiempo. Recientemente, los modelos de difusión de imágenes preentrenados a gran escala han ganado prominencia como extractores de características efectivos para tareas de percepción 2D. Sin embargo, estas características se entrenan inicialmente con datos de texto e imágenes emparejados, que no están optimizados para tareas 3D, y a menudo muestran una brecha de dominio cuando se aplican a los datos objetivo. Nuestro enfoque cierra estas brechas mediante dos estrategias de ajuste especializadas: geométrica y semántica. Para el ajuste geométrico, afinamos un modelo de difusión para realizar síntesis de nuevas vistas condicionadas a una sola imagen, introduciendo un novedoso operador de deformación epipolar. Esta tarea cumple dos criterios esenciales: la necesidad de conciencia 3D y la dependencia únicamente de datos de imágenes con pose, que están fácilmente disponibles (por ejemplo, de videos) y no requieren anotación manual. Para el refinamiento semántico, entrenamos adicionalmente el modelo con datos objetivo y supervisión de detección. Ambas fases de ajuste emplean ControlNet para preservar la integridad de las capacidades originales de las características. En el paso final, aprovechamos estas capacidades mejoradas para realizar un ensamblado de predicciones en tiempo de prueba a través de múltiples puntos de vista virtuales. A través de nuestra metodología, obtenemos características conscientes de la 3D que están adaptadas para la detección 3D y sobresalen en la identificación de correspondencias de puntos entre vistas. En consecuencia, nuestro modelo surge como un potente detector 3D, superando sustancialmente los puntos de referencia anteriores, por ejemplo, Cube-RCNN, un precedente en la detección 3D de vista única, en un 9.43\% en AP3D en el conjunto de datos Omni3D-ARkitscene. Además, 3DiffTection demuestra una robusta eficiencia de datos y generalización a datos de dominios cruzados.

English

We present 3DiffTection, a state-of-the-art method for 3D object detection from single images, leveraging features from a 3D-aware diffusion model. Annotating large-scale image data for 3D detection is resource-intensive and time-consuming. Recently, pretrained large image diffusion models have become prominent as effective feature extractors for 2D perception tasks. However, these features are initially trained on paired text and image data, which are not optimized for 3D tasks, and often exhibit a domain gap when applied to the target data. Our approach bridges these gaps through two specialized tuning strategies: geometric and semantic. For geometric tuning, we fine-tune a diffusion model to perform novel view synthesis conditioned on a single image, by introducing a novel epipolar warp operator. This task meets two essential criteria: the necessity for 3D awareness and reliance solely on posed image data, which are readily available (e.g., from videos) and does not require manual annotation. For semantic refinement, we further train the model on target data with detection supervision. Both tuning phases employ ControlNet to preserve the integrity of the original feature capabilities. In the final step, we harness these enhanced capabilities to conduct a test-time prediction ensemble across multiple virtual viewpoints. Through our methodology, we obtain 3D-aware features that are tailored for 3D detection and excel in identifying cross-view point correspondences. Consequently, our model emerges as a powerful 3D detector, substantially surpassing previous benchmarks, e.g., Cube-RCNN, a precedent in single-view 3D detection by 9.43\% in AP3D on the Omni3D-ARkitscene dataset. Furthermore, 3DiffTection showcases robust data efficiency and generalization to cross-domain data.

3DiffTection: Detección de objetos 3D con características de difusión conscientes de la geometría

3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features

Resumen

Support