DINeMo: Aprendendo Modelos de Malha Neural sem Anotações 3D

Resumo

A estimação de pose 3D/6D em nível de categoria é uma etapa crucial para a compreensão abrangente de cenas 3D, o que permitiria uma ampla gama de aplicações em robótica e IA incorporada. Trabalhos recentes exploraram modelos de malha neural que abordam uma variedade de tarefas 2D e 3D a partir de uma perspectiva de análise por síntese. Apesar da robustez significativamente aprimorada em relação a oclusões parciais e mudanças de domínio, esses métodos dependiam fortemente de anotações 3D para aprendizado contrastivo de partes, o que os confinava a um conjunto restrito de categorias e dificultava a escalabilidade eficiente. Neste trabalho, apresentamos o DINeMo, um novo modelo de malha neural que é treinado sem anotações 3D, aproveitando pseudo-correspondências obtidas de grandes modelos de fundação visual. Adotamos um método bidirecional de geração de pseudo-correspondências, que produz pseudo-correspondências utilizando tanto características de aparência local quanto informações de contexto global. Resultados experimentais em conjuntos de dados de carros demonstram que nosso DINeMo supera significativamente métodos anteriores de estimação de pose 3D com zero-shot e few-shot, reduzindo a lacuna com métodos totalmente supervisionados em 67,3%. Nosso DINeMo também escala de forma eficaz e eficiente ao incorporar mais imagens não rotuladas durante o treinamento, o que demonstra as vantagens sobre métodos de aprendizado supervisionado que dependem de anotações 3D. Nossa página do projeto está disponível em https://analysis-by-synthesis.github.io/DINeMo/.

English

Category-level 3D/6D pose estimation is a crucial step towards comprehensive 3D scene understanding, which would enable a broad range of applications in robotics and embodied AI. Recent works explored neural mesh models that approach a range of 2D and 3D tasks from an analysis-by-synthesis perspective. Despite the largely enhanced robustness to partial occlusion and domain shifts, these methods depended heavily on 3D annotations for part-contrastive learning, which confines them to a narrow set of categories and hinders efficient scaling. In this work, we present DINeMo, a novel neural mesh model that is trained with no 3D annotations by leveraging pseudo-correspondence obtained from large visual foundation models. We adopt a bidirectional pseudo-correspondence generation method, which produce pseudo correspondence utilize both local appearance features and global context information. Experimental results on car datasets demonstrate that our DINeMo outperforms previous zero- and few-shot 3D pose estimation by a wide margin, narrowing the gap with fully-supervised methods by 67.3%. Our DINeMo also scales effectively and efficiently when incorporating more unlabeled images during training, which demonstrate the advantages over supervised learning methods that rely on 3D annotations. Our project page is available at https://analysis-by-synthesis.github.io/DINeMo/.

DINeMo: Aprendendo Modelos de Malha Neural sem Anotações 3D

DINeMo: Learning Neural Mesh Models with no 3D Annotations

Resumo

Support