3DiffTection: 3D-детекция объектов с использованием геометрически осознанных признаков диффузии

Аннотация

Мы представляем 3DiffTection — современный метод для обнаружения 3D-объектов по одиночным изображениям, использующий признаки из 3D-осознанной диффузионной модели. Аннотирование крупномасштабных данных изображений для 3D-детекции требует значительных ресурсов и времени. В последнее время предобученные крупные диффузионные модели изображений стали популярными как эффективные экстракторы признаков для задач 2D-восприятия. Однако эти признаки изначально обучаются на парных данных текста и изображений, которые не оптимизированы для 3D-задач, и часто демонстрируют разрыв доменов при применении к целевым данным. Наш подход устраняет эти разрывы с помощью двух специализированных стратегий настройки: геометрической и семантической. Для геометрической настройки мы дообучаем диффузионную модель для синтеза новых видов на основе одного изображения, вводя новый эпиполярный оператор деформации. Эта задача отвечает двум ключевым критериям: необходимость 3D-осознанности и зависимость исключительно от данных изображений с известной позой, которые легко доступны (например, из видео) и не требуют ручной аннотации. Для семантической доработки мы дополнительно обучаем модель на целевых данных с контролем детекции. Обе фазы настройки используют ControlNet для сохранения целостности исходных возможностей признаков. На заключительном этапе мы используем эти улучшенные возможности для проведения ансамбля предсказаний во время тестирования на множестве виртуальных точек зрения. Благодаря нашей методологии мы получаем 3D-осознанные признаки, адаптированные для 3D-детекции и превосходно справляющиеся с идентификацией соответствий точек между видами. В результате наша модель становится мощным 3D-детектором, значительно превосходящим предыдущие эталоны, например, Cube-RCNN, предшественника в однокадровой 3D-детекции, на 9,43% по метрике AP3D на наборе данных Omni3D-ARkitscene. Кроме того, 3DiffTection демонстрирует высокую эффективность использования данных и обобщаемость на кросс-доменные данные.

English

We present 3DiffTection, a state-of-the-art method for 3D object detection from single images, leveraging features from a 3D-aware diffusion model. Annotating large-scale image data for 3D detection is resource-intensive and time-consuming. Recently, pretrained large image diffusion models have become prominent as effective feature extractors for 2D perception tasks. However, these features are initially trained on paired text and image data, which are not optimized for 3D tasks, and often exhibit a domain gap when applied to the target data. Our approach bridges these gaps through two specialized tuning strategies: geometric and semantic. For geometric tuning, we fine-tune a diffusion model to perform novel view synthesis conditioned on a single image, by introducing a novel epipolar warp operator. This task meets two essential criteria: the necessity for 3D awareness and reliance solely on posed image data, which are readily available (e.g., from videos) and does not require manual annotation. For semantic refinement, we further train the model on target data with detection supervision. Both tuning phases employ ControlNet to preserve the integrity of the original feature capabilities. In the final step, we harness these enhanced capabilities to conduct a test-time prediction ensemble across multiple virtual viewpoints. Through our methodology, we obtain 3D-aware features that are tailored for 3D detection and excel in identifying cross-view point correspondences. Consequently, our model emerges as a powerful 3D detector, substantially surpassing previous benchmarks, e.g., Cube-RCNN, a precedent in single-view 3D detection by 9.43\% in AP3D on the Omni3D-ARkitscene dataset. Furthermore, 3DiffTection showcases robust data efficiency and generalization to cross-domain data.

3DiffTection: 3D-детекция объектов с использованием геометрически осознанных признаков диффузии

3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features

Аннотация

Support