Многозрительная эквивариантность улучшает понимание трехмерной соответственности с минимальной донастройкой признаков.

Аннотация

Модели основанные на зрительном восприятии, в частности, семейство ViT, революционизировали понимание изображений, предоставляя богатые семантические особенности. Однако, несмотря на их успех в понимании 2D, их способности в понимании трехмерных пространственных отношений до сих пор остаются неясными. В данной работе мы оцениваем и улучшаем трехмерное восприятие моделей на основе ViT. Мы начинаем систематическую оценку их способности к изучению трехмерных эквивариантных особенностей, в частности, изучая согласованность семантических вложений при различных точках зрения. Наши результаты указывают на то, что улучшенная трехмерная эквивариантность приводит к лучшей производительности на различных задачах, включая оценку позы, отслеживание и семантическую передачу. Основываясь на этом выводе, мы предлагаем простую, но эффективную стратегию донастройки на основе трехмерных соответствий, которая значительно улучшает понимание трехмерных соответствий существующих моделей зрения. Замечательно, что даже донастройка на один объект всего за одну итерацию приводит к существенному увеличению производительности. Весь код и ресурсы будут общедоступны для поддержки дальнейших усовершенствований в моделях зрения, осведомленных о трехмерном пространстве. Наш код доступен по ссылке https://github.com/qq456cvb/3DCorrEnhance.

English

Vision foundation models, particularly the ViT family, have revolutionized image understanding by providing rich semantic features. However, despite their success in 2D comprehension, their abilities on grasping 3D spatial relationships are still unclear. In this work, we evaluate and enhance the 3D awareness of ViT-based models. We begin by systematically assessing their ability to learn 3D equivariant features, specifically examining the consistency of semantic embeddings across different viewpoints. Our findings indicate that improved 3D equivariance leads to better performance on various downstream tasks, including pose estimation, tracking, and semantic transfer. Building on this insight, we propose a simple yet effective finetuning strategy based on 3D correspondences, which significantly enhances the 3D correspondence understanding of existing vision models. Remarkably, even finetuning on a single object for just one iteration results in substantial performance gains. All code and resources will be made publicly available to support further advancements in 3D-aware vision models. Our code is available at https://github.com/qq456cvb/3DCorrEnhance.

Многозрительная эквивариантность улучшает понимание трехмерной соответственности с минимальной донастройкой признаков.

Multiview Equivariance Improves 3D Correspondence Understanding with Minimal Feature Finetuning

Аннотация

Support