DINeMo: Обучение нейронных моделей мешей без 3D-аннотаций
DINeMo: Learning Neural Mesh Models with no 3D Annotations
March 26, 2025
Авторы: Weijie Guo, Guofeng Zhang, Wufei Ma, Alan Yuille
cs.AI
Аннотация
Оценка 3D/6D поз на уровне категорий является важным шагом на пути к всестороннему пониманию 3D сцен, что открывает широкий спектр применений в робототехнике и воплощенном искусственном интеллекте. В последних работах исследовались нейронные модели мешей, которые подходят к решению различных 2D и 3D задач с точки зрения анализа через синтез. Несмотря на значительно повышенную устойчивость к частичной окклюзии и сдвигам доменов, эти методы сильно зависели от 3D аннотаций для контрастивного обучения частей, что ограничивало их узким набором категорий и затрудняло эффективное масштабирование. В данной работе мы представляем DINeMo, новую нейронную модель мешей, которая обучается без 3D аннотаций, используя псевдокорреспонденции, полученные из крупных визуальных базовых моделей. Мы применяем двунаправленный метод генерации псевдокорреспонденций, который создает псевдокорреспонденции, используя как локальные признаки внешнего вида, так и глобальную контекстную информацию. Экспериментальные результаты на наборах данных автомобилей демонстрируют, что наш DINeMo значительно превосходит предыдущие методы оценки 3D поз с нулевым и малым количеством примеров, сокращая разрыв с полностью контролируемыми методами на 67.3%. Наш DINeMo также эффективно и результативно масштабируется при включении большего количества неразмеченных изображений в процессе обучения, что демонстрирует преимущества перед методами контролируемого обучения, зависящими от 3D аннотаций. Страница проекта доступна по адресу https://analysis-by-synthesis.github.io/DINeMo/.
English
Category-level 3D/6D pose estimation is a crucial step towards comprehensive
3D scene understanding, which would enable a broad range of applications in
robotics and embodied AI. Recent works explored neural mesh models that
approach a range of 2D and 3D tasks from an analysis-by-synthesis perspective.
Despite the largely enhanced robustness to partial occlusion and domain shifts,
these methods depended heavily on 3D annotations for part-contrastive learning,
which confines them to a narrow set of categories and hinders efficient
scaling. In this work, we present DINeMo, a novel neural mesh model that is
trained with no 3D annotations by leveraging pseudo-correspondence obtained
from large visual foundation models. We adopt a bidirectional
pseudo-correspondence generation method, which produce pseudo correspondence
utilize both local appearance features and global context information.
Experimental results on car datasets demonstrate that our DINeMo outperforms
previous zero- and few-shot 3D pose estimation by a wide margin, narrowing the
gap with fully-supervised methods by 67.3%. Our DINeMo also scales effectively
and efficiently when incorporating more unlabeled images during training, which
demonstrate the advantages over supervised learning methods that rely on 3D
annotations. Our project page is available at
https://analysis-by-synthesis.github.io/DINeMo/.Summary
AI-Generated Summary