3DiffTection: 3D Objectdetectie met geometriebewuste diffusiekenmerken
3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features
November 7, 2023
Auteurs: Chenfeng Xu, Huan Ling, Sanja Fidler, Or Litany
cs.AI
Samenvatting
We presenteren 3DiffTection, een state-of-the-art methode voor 3D-objectdetectie vanuit enkele afbeeldingen, waarbij gebruik wordt gemaakt van kenmerken uit een 3D-bewust diffusiemodel. Het annoteren van grootschalige beeldgegevens voor 3D-detectie is resource-intensief en tijdrovend. Onlangs zijn vooraf getrainde grote beelddiffusiemodellen prominent geworden als effectieve kenmerkextractors voor 2D-waarnemingstaken. Deze kenmerken zijn echter aanvankelijk getraind op gepaarde tekst- en beeldgegevens, die niet zijn geoptimaliseerd voor 3D-taken, en vertonen vaak een domeinkloof wanneer ze worden toegepast op de doelgegevens. Onze aanpak overbrugt deze kloven door twee gespecialiseerde afstemmingsstrategieën: geometrisch en semantisch. Voor geometrische afstemming fine-tunen we een diffusiemodel om nieuwe weergavesynthese uit te voeren, geconditioneerd op een enkele afbeelding, door een nieuwe epipolaire warp-operator te introduceren. Deze taak voldoet aan twee essentiële criteria: de noodzaak voor 3D-bewustzijn en de afhankelijkheid van alleen geposeerde beeldgegevens, die gemakkelijk beschikbaar zijn (bijvoorbeeld uit video's) en geen handmatige annotatie vereisen. Voor semantische verfijning trainen we het model verder op doelgegevens met detectietoezicht. Beide afstemmingsfasen gebruiken ControlNet om de integriteit van de oorspronkelijke kenmerkmogelijkheden te behouden. In de laatste stap benutten we deze verbeterde mogelijkheden om een testtijdvoorspellingsensemble uit te voeren over meerdere virtuele gezichtspunten. Door onze methodologie verkrijgen we 3D-bewuste kenmerken die zijn afgestemd op 3D-detectie en uitblinken in het identificeren van kruisgezichtspuntcorrespondenties. Hierdoor komt ons model naar voren als een krachtige 3D-detector, die eerdere benchmarks aanzienlijk overtreft, bijvoorbeeld Cube-RCNN, een precedent in enkelvoudige 3D-detectie met 9,43% in AP3D op de Omni3D-ARkitscene dataset. Bovendien toont 3DiffTection robuuste data-efficiëntie en generalisatie naar cross-domeingegevens.
English
We present 3DiffTection, a state-of-the-art method for 3D object detection
from single images, leveraging features from a 3D-aware diffusion model.
Annotating large-scale image data for 3D detection is resource-intensive and
time-consuming. Recently, pretrained large image diffusion models have become
prominent as effective feature extractors for 2D perception tasks. However,
these features are initially trained on paired text and image data, which are
not optimized for 3D tasks, and often exhibit a domain gap when applied to the
target data. Our approach bridges these gaps through two specialized tuning
strategies: geometric and semantic. For geometric tuning, we fine-tune a
diffusion model to perform novel view synthesis conditioned on a single image,
by introducing a novel epipolar warp operator. This task meets two essential
criteria: the necessity for 3D awareness and reliance solely on posed image
data, which are readily available (e.g., from videos) and does not require
manual annotation. For semantic refinement, we further train the model on
target data with detection supervision. Both tuning phases employ ControlNet to
preserve the integrity of the original feature capabilities. In the final step,
we harness these enhanced capabilities to conduct a test-time prediction
ensemble across multiple virtual viewpoints. Through our methodology, we obtain
3D-aware features that are tailored for 3D detection and excel in identifying
cross-view point correspondences. Consequently, our model emerges as a powerful
3D detector, substantially surpassing previous benchmarks, e.g., Cube-RCNN, a
precedent in single-view 3D detection by 9.43\% in AP3D on the
Omni3D-ARkitscene dataset. Furthermore, 3DiffTection showcases robust data
efficiency and generalization to cross-domain data.