3DiffTection: Rilevamento di Oggetti 3D con Caratteristiche di Diffusione Consapevoli della Geometria
3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features
November 7, 2023
Autori: Chenfeng Xu, Huan Ling, Sanja Fidler, Or Litany
cs.AI
Abstract
Presentiamo 3DiffTection, un metodo all'avanguardia per il rilevamento di oggetti 3D da immagini singole, che sfrutta le caratteristiche di un modello di diffusione consapevole del 3D. L'annotazione di dati su larga scala per il rilevamento 3D è dispendiosa in termini di risorse e tempo. Recentemente, i modelli di diffusione di immagini pre-addestrati su larga scala sono diventati prominenti come estrattori di caratteristiche efficaci per compiti di percezione 2D. Tuttavia, queste caratteristiche sono inizialmente addestrate su dati accoppiati di testo e immagine, che non sono ottimizzati per compiti 3D, e spesso mostrano un divario di dominio quando applicati ai dati target. Il nostro approccio colma questi divari attraverso due strategie di ottimizzazione specializzate: geometrica e semantica. Per l'ottimizzazione geometrica, perfezioniamo un modello di diffusione per eseguire la sintesi di nuove viste condizionata da una singola immagine, introducendo un nuovo operatore di deformazione epipolare. Questo compito soddisfa due criteri essenziali: la necessità di consapevolezza 3D e la dipendenza esclusiva da dati di immagini posate, che sono facilmente disponibili (ad esempio, da video) e non richiedono annotazioni manuali. Per il perfezionamento semantico, addestriamo ulteriormente il modello sui dati target con supervisione di rilevamento. Entrambe le fasi di ottimizzazione impiegano ControlNet per preservare l'integrità delle capacità originali delle caratteristiche. Nel passaggio finale, sfruttiamo queste capacità potenziate per condurre un insieme di previsioni al momento del test attraverso molteplici punti di vista virtuali. Attraverso la nostra metodologia, otteniamo caratteristiche consapevoli del 3D che sono adattate per il rilevamento 3D e eccellono nell'identificare corrispondenze di punti tra viste diverse. Di conseguenza, il nostro modello emerge come un potente rilevatore 3D, superando sostanzialmente i precedenti benchmark, ad esempio Cube-RCNN, un precedente nel rilevamento 3D da vista singola, del 9,43% in AP3D sul dataset Omni3D-ARkitscene. Inoltre, 3DiffTection dimostra una robusta efficienza dei dati e una generalizzazione ai dati cross-dominio.
English
We present 3DiffTection, a state-of-the-art method for 3D object detection
from single images, leveraging features from a 3D-aware diffusion model.
Annotating large-scale image data for 3D detection is resource-intensive and
time-consuming. Recently, pretrained large image diffusion models have become
prominent as effective feature extractors for 2D perception tasks. However,
these features are initially trained on paired text and image data, which are
not optimized for 3D tasks, and often exhibit a domain gap when applied to the
target data. Our approach bridges these gaps through two specialized tuning
strategies: geometric and semantic. For geometric tuning, we fine-tune a
diffusion model to perform novel view synthesis conditioned on a single image,
by introducing a novel epipolar warp operator. This task meets two essential
criteria: the necessity for 3D awareness and reliance solely on posed image
data, which are readily available (e.g., from videos) and does not require
manual annotation. For semantic refinement, we further train the model on
target data with detection supervision. Both tuning phases employ ControlNet to
preserve the integrity of the original feature capabilities. In the final step,
we harness these enhanced capabilities to conduct a test-time prediction
ensemble across multiple virtual viewpoints. Through our methodology, we obtain
3D-aware features that are tailored for 3D detection and excel in identifying
cross-view point correspondences. Consequently, our model emerges as a powerful
3D detector, substantially surpassing previous benchmarks, e.g., Cube-RCNN, a
precedent in single-view 3D detection by 9.43\% in AP3D on the
Omni3D-ARkitscene dataset. Furthermore, 3DiffTection showcases robust data
efficiency and generalization to cross-domain data.