3DiffTection: Detección de objetos 3D con características de difusión conscientes de la geometría
3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features
November 7, 2023
Autores: Chenfeng Xu, Huan Ling, Sanja Fidler, Or Litany
cs.AI
Resumen
Presentamos 3DiffTection, un método de vanguardia para la detección de objetos 3D a partir de imágenes individuales, que aprovecha las características de un modelo de difusión consciente de la 3D. Anotar datos de imágenes a gran escala para la detección 3D es intensivo en recursos y consume mucho tiempo. Recientemente, los modelos de difusión de imágenes preentrenados a gran escala han ganado prominencia como extractores de características efectivos para tareas de percepción 2D. Sin embargo, estas características se entrenan inicialmente con datos de texto e imágenes emparejados, que no están optimizados para tareas 3D, y a menudo muestran una brecha de dominio cuando se aplican a los datos objetivo. Nuestro enfoque cierra estas brechas mediante dos estrategias de ajuste especializadas: geométrica y semántica. Para el ajuste geométrico, afinamos un modelo de difusión para realizar síntesis de nuevas vistas condicionadas a una sola imagen, introduciendo un novedoso operador de deformación epipolar. Esta tarea cumple dos criterios esenciales: la necesidad de conciencia 3D y la dependencia únicamente de datos de imágenes con pose, que están fácilmente disponibles (por ejemplo, de videos) y no requieren anotación manual. Para el refinamiento semántico, entrenamos adicionalmente el modelo con datos objetivo y supervisión de detección. Ambas fases de ajuste emplean ControlNet para preservar la integridad de las capacidades originales de las características. En el paso final, aprovechamos estas capacidades mejoradas para realizar un ensamblado de predicciones en tiempo de prueba a través de múltiples puntos de vista virtuales. A través de nuestra metodología, obtenemos características conscientes de la 3D que están adaptadas para la detección 3D y sobresalen en la identificación de correspondencias de puntos entre vistas. En consecuencia, nuestro modelo surge como un potente detector 3D, superando sustancialmente los puntos de referencia anteriores, por ejemplo, Cube-RCNN, un precedente en la detección 3D de vista única, en un 9.43\% en AP3D en el conjunto de datos Omni3D-ARkitscene. Además, 3DiffTection demuestra una robusta eficiencia de datos y generalización a datos de dominios cruzados.
English
We present 3DiffTection, a state-of-the-art method for 3D object detection
from single images, leveraging features from a 3D-aware diffusion model.
Annotating large-scale image data for 3D detection is resource-intensive and
time-consuming. Recently, pretrained large image diffusion models have become
prominent as effective feature extractors for 2D perception tasks. However,
these features are initially trained on paired text and image data, which are
not optimized for 3D tasks, and often exhibit a domain gap when applied to the
target data. Our approach bridges these gaps through two specialized tuning
strategies: geometric and semantic. For geometric tuning, we fine-tune a
diffusion model to perform novel view synthesis conditioned on a single image,
by introducing a novel epipolar warp operator. This task meets two essential
criteria: the necessity for 3D awareness and reliance solely on posed image
data, which are readily available (e.g., from videos) and does not require
manual annotation. For semantic refinement, we further train the model on
target data with detection supervision. Both tuning phases employ ControlNet to
preserve the integrity of the original feature capabilities. In the final step,
we harness these enhanced capabilities to conduct a test-time prediction
ensemble across multiple virtual viewpoints. Through our methodology, we obtain
3D-aware features that are tailored for 3D detection and excel in identifying
cross-view point correspondences. Consequently, our model emerges as a powerful
3D detector, substantially surpassing previous benchmarks, e.g., Cube-RCNN, a
precedent in single-view 3D detection by 9.43\% in AP3D on the
Omni3D-ARkitscene dataset. Furthermore, 3DiffTection showcases robust data
efficiency and generalization to cross-domain data.