3DiffTection: Detecção de Objetos 3D com Características de Difusão Conscientes da Geometria
3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features
November 7, 2023
Autores: Chenfeng Xu, Huan Ling, Sanja Fidler, Or Litany
cs.AI
Resumo
Apresentamos o 3DiffTection, um método de ponta para detecção de objetos 3D a partir de imagens únicas, que utiliza recursos de um modelo de difusão com consciência 3D. A anotação de dados de imagem em grande escala para detecção 3D é intensiva em recursos e consome muito tempo. Recentemente, modelos de difusão de imagem pré-treinados em larga escala tornaram-se proeminentes como extratores de recursos eficazes para tarefas de percepção 2D. No entanto, esses recursos são inicialmente treinados em dados pareados de texto e imagem, que não são otimizados para tarefas 3D, e frequentemente apresentam uma lacuna de domínio quando aplicados aos dados de destino. Nossa abordagem preenche essas lacunas por meio de duas estratégias de ajuste especializadas: geométrica e semântica. Para o ajuste geométrico, refinamos um modelo de difusão para realizar a síntese de novas visões condicionada a uma única imagem, introduzindo um novo operador de deformação epipolar. Essa tarefa atende a dois critérios essenciais: a necessidade de consciência 3D e a dependência exclusiva de dados de imagem posicionados, que estão prontamente disponíveis (por exemplo, de vídeos) e não exigem anotação manual. Para o refinamento semântico, treinamos ainda mais o modelo em dados de destino com supervisão de detecção. Ambas as fases de ajuste empregam o ControlNet para preservar a integridade das capacidades originais dos recursos. Na etapa final, aproveitamos essas capacidades aprimoradas para realizar um ensemble de previsão em tempo de teste em múltiplos pontos de vista virtuais. Por meio de nossa metodologia, obtemos recursos com consciência 3D que são adaptados para detecção 3D e se destacam na identificação de correspondências de pontos entre visões. Consequentemente, nosso modelo surge como um poderoso detector 3D, superando substancialmente benchmarks anteriores, por exemplo, o Cube-RCNN, um precedente em detecção 3D de visão única, em 9,43% no AP3D no conjunto de dados Omni3D-ARkitscene. Além disso, o 3DiffTection demonstra robusta eficiência de dados e generalização para dados de domínios cruzados.
English
We present 3DiffTection, a state-of-the-art method for 3D object detection
from single images, leveraging features from a 3D-aware diffusion model.
Annotating large-scale image data for 3D detection is resource-intensive and
time-consuming. Recently, pretrained large image diffusion models have become
prominent as effective feature extractors for 2D perception tasks. However,
these features are initially trained on paired text and image data, which are
not optimized for 3D tasks, and often exhibit a domain gap when applied to the
target data. Our approach bridges these gaps through two specialized tuning
strategies: geometric and semantic. For geometric tuning, we fine-tune a
diffusion model to perform novel view synthesis conditioned on a single image,
by introducing a novel epipolar warp operator. This task meets two essential
criteria: the necessity for 3D awareness and reliance solely on posed image
data, which are readily available (e.g., from videos) and does not require
manual annotation. For semantic refinement, we further train the model on
target data with detection supervision. Both tuning phases employ ControlNet to
preserve the integrity of the original feature capabilities. In the final step,
we harness these enhanced capabilities to conduct a test-time prediction
ensemble across multiple virtual viewpoints. Through our methodology, we obtain
3D-aware features that are tailored for 3D detection and excel in identifying
cross-view point correspondences. Consequently, our model emerges as a powerful
3D detector, substantially surpassing previous benchmarks, e.g., Cube-RCNN, a
precedent in single-view 3D detection by 9.43\% in AP3D on the
Omni3D-ARkitscene dataset. Furthermore, 3DiffTection showcases robust data
efficiency and generalization to cross-domain data.