La Equivarianza Multivista Mejora la Comprensión de la Correspondencia 3D con un Mínimo Ajuste Fino de Características.

Resumen

Los modelos de base visual, en particular la familia ViT, han revolucionado la comprensión de imágenes al proporcionar características semánticas detalladas. Sin embargo, a pesar de su éxito en la comprensión en 2D, sus capacidades para comprender las relaciones espaciales en 3D aún no están claras. En este trabajo, evaluamos y mejoramos la conciencia en 3D de los modelos basados en ViT. Comenzamos evaluando sistemáticamente su capacidad para aprender características 3D equivariantes, examinando específicamente la consistencia de las incrustaciones semánticas en diferentes puntos de vista. Nuestros hallazgos indican que una mejor equivariancia en 3D conduce a un mejor rendimiento en diversas tareas posteriores, incluyendo estimación de postura, seguimiento y transferencia semántica. Basándonos en esta idea, proponemos una estrategia de ajuste simple pero efectiva basada en correspondencias 3D, que mejora significativamente la comprensión de correspondencias 3D de los modelos de visión existentes. Sorprendentemente, incluso el ajuste en un solo objeto durante una sola iteración resulta en ganancias de rendimiento sustanciales. Todo el código y los recursos estarán disponibles públicamente para apoyar futuros avances en modelos de visión conscientes en 3D. Nuestro código está disponible en https://github.com/qq456cvb/3DCorrEnhance.

English

Vision foundation models, particularly the ViT family, have revolutionized image understanding by providing rich semantic features. However, despite their success in 2D comprehension, their abilities on grasping 3D spatial relationships are still unclear. In this work, we evaluate and enhance the 3D awareness of ViT-based models. We begin by systematically assessing their ability to learn 3D equivariant features, specifically examining the consistency of semantic embeddings across different viewpoints. Our findings indicate that improved 3D equivariance leads to better performance on various downstream tasks, including pose estimation, tracking, and semantic transfer. Building on this insight, we propose a simple yet effective finetuning strategy based on 3D correspondences, which significantly enhances the 3D correspondence understanding of existing vision models. Remarkably, even finetuning on a single object for just one iteration results in substantial performance gains. All code and resources will be made publicly available to support further advancements in 3D-aware vision models. Our code is available at https://github.com/qq456cvb/3DCorrEnhance.

La Equivarianza Multivista Mejora la Comprensión de la Correspondencia 3D con un Mínimo Ajuste Fino de Características.

Multiview Equivariance Improves 3D Correspondence Understanding with Minimal Feature Finetuning

Resumen

Support