DINeMo: Aprendizaje de Modelos de Mallas Neuronales sin Anotaciones 3D

Resumen

La estimación de pose 3D/6D a nivel de categoría es un paso crucial hacia la comprensión integral de escenas 3D, lo que permitiría una amplia gama de aplicaciones en robótica e IA encarnada. Trabajos recientes han explorado modelos de mallas neuronales que abordan una variedad de tareas 2D y 3D desde una perspectiva de análisis por síntesis. A pesar de la mayor robustez frente a oclusiones parciales y cambios de dominio, estos métodos dependían en gran medida de anotaciones 3D para el aprendizaje contrastivo de partes, lo que los limita a un conjunto reducido de categorías y dificulta su escalabilidad eficiente. En este trabajo, presentamos DINeMo, un novedoso modelo de malla neuronal que se entrena sin anotaciones 3D al aprovechar pseudo-correspondencias obtenidas de grandes modelos visuales fundamentales. Adoptamos un método bidireccional de generación de pseudo-correspondencias, que produce pseudo-correspondencias utilizando tanto características locales de apariencia como información de contexto global. Los resultados experimentales en conjuntos de datos de automóviles demuestran que nuestro DINeMo supera ampliamente a los métodos anteriores de estimación de pose 3D con cero y pocos ejemplos, reduciendo la brecha con los métodos completamente supervisados en un 67.3%. Nuestro DINeMo también escala de manera efectiva y eficiente al incorporar más imágenes no etiquetadas durante el entrenamiento, lo que demuestra las ventajas sobre los métodos de aprendizaje supervisado que dependen de anotaciones 3D. Nuestra página del proyecto está disponible en https://analysis-by-synthesis.github.io/DINeMo/.

English

Category-level 3D/6D pose estimation is a crucial step towards comprehensive 3D scene understanding, which would enable a broad range of applications in robotics and embodied AI. Recent works explored neural mesh models that approach a range of 2D and 3D tasks from an analysis-by-synthesis perspective. Despite the largely enhanced robustness to partial occlusion and domain shifts, these methods depended heavily on 3D annotations for part-contrastive learning, which confines them to a narrow set of categories and hinders efficient scaling. In this work, we present DINeMo, a novel neural mesh model that is trained with no 3D annotations by leveraging pseudo-correspondence obtained from large visual foundation models. We adopt a bidirectional pseudo-correspondence generation method, which produce pseudo correspondence utilize both local appearance features and global context information. Experimental results on car datasets demonstrate that our DINeMo outperforms previous zero- and few-shot 3D pose estimation by a wide margin, narrowing the gap with fully-supervised methods by 67.3%. Our DINeMo also scales effectively and efficiently when incorporating more unlabeled images during training, which demonstrate the advantages over supervised learning methods that rely on 3D annotations. Our project page is available at https://analysis-by-synthesis.github.io/DINeMo/.

DINeMo: Aprendizaje de Modelos de Mallas Neuronales sin Anotaciones 3D

DINeMo: Learning Neural Mesh Models with no 3D Annotations

Resumen

Support