La Equivarianza Multivista Mejora la Comprensión de la Correspondencia 3D con un Mínimo Ajuste Fino de Características.
Multiview Equivariance Improves 3D Correspondence Understanding with Minimal Feature Finetuning
November 29, 2024
Autores: Yang You, Yixin Li, Congyue Deng, Yue Wang, Leonidas Guibas
cs.AI
Resumen
Los modelos de base visual, en particular la familia ViT, han revolucionado la comprensión de imágenes al proporcionar características semánticas detalladas. Sin embargo, a pesar de su éxito en la comprensión en 2D, sus capacidades para comprender las relaciones espaciales en 3D aún no están claras. En este trabajo, evaluamos y mejoramos la conciencia en 3D de los modelos basados en ViT. Comenzamos evaluando sistemáticamente su capacidad para aprender características 3D equivariantes, examinando específicamente la consistencia de las incrustaciones semánticas en diferentes puntos de vista. Nuestros hallazgos indican que una mejor equivariancia en 3D conduce a un mejor rendimiento en diversas tareas posteriores, incluyendo estimación de postura, seguimiento y transferencia semántica. Basándonos en esta idea, proponemos una estrategia de ajuste simple pero efectiva basada en correspondencias 3D, que mejora significativamente la comprensión de correspondencias 3D de los modelos de visión existentes. Sorprendentemente, incluso el ajuste en un solo objeto durante una sola iteración resulta en ganancias de rendimiento sustanciales. Todo el código y los recursos estarán disponibles públicamente para apoyar futuros avances en modelos de visión conscientes en 3D. Nuestro código está disponible en https://github.com/qq456cvb/3DCorrEnhance.
English
Vision foundation models, particularly the ViT family, have revolutionized
image understanding by providing rich semantic features. However, despite their
success in 2D comprehension, their abilities on grasping 3D spatial
relationships are still unclear. In this work, we evaluate and enhance the 3D
awareness of ViT-based models. We begin by systematically assessing their
ability to learn 3D equivariant features, specifically examining the
consistency of semantic embeddings across different viewpoints. Our findings
indicate that improved 3D equivariance leads to better performance on various
downstream tasks, including pose estimation, tracking, and semantic transfer.
Building on this insight, we propose a simple yet effective finetuning strategy
based on 3D correspondences, which significantly enhances the 3D correspondence
understanding of existing vision models. Remarkably, even finetuning on a
single object for just one iteration results in substantial performance gains.
All code and resources will be made publicly available to support further
advancements in 3D-aware vision models. Our code is available at
https://github.com/qq456cvb/3DCorrEnhance.Summary
AI-Generated Summary