Многозрительная эквивариантность улучшает понимание трехмерной соответственности с минимальной донастройкой признаков.
Multiview Equivariance Improves 3D Correspondence Understanding with Minimal Feature Finetuning
November 29, 2024
Авторы: Yang You, Yixin Li, Congyue Deng, Yue Wang, Leonidas Guibas
cs.AI
Аннотация
Модели основанные на зрительном восприятии, в частности, семейство ViT, революционизировали понимание изображений, предоставляя богатые семантические особенности. Однако, несмотря на их успех в понимании 2D, их способности в понимании трехмерных пространственных отношений до сих пор остаются неясными. В данной работе мы оцениваем и улучшаем трехмерное восприятие моделей на основе ViT. Мы начинаем систематическую оценку их способности к изучению трехмерных эквивариантных особенностей, в частности, изучая согласованность семантических вложений при различных точках зрения. Наши результаты указывают на то, что улучшенная трехмерная эквивариантность приводит к лучшей производительности на различных задачах, включая оценку позы, отслеживание и семантическую передачу. Основываясь на этом выводе, мы предлагаем простую, но эффективную стратегию донастройки на основе трехмерных соответствий, которая значительно улучшает понимание трехмерных соответствий существующих моделей зрения. Замечательно, что даже донастройка на один объект всего за одну итерацию приводит к существенному увеличению производительности. Весь код и ресурсы будут общедоступны для поддержки дальнейших усовершенствований в моделях зрения, осведомленных о трехмерном пространстве. Наш код доступен по ссылке https://github.com/qq456cvb/3DCorrEnhance.
English
Vision foundation models, particularly the ViT family, have revolutionized
image understanding by providing rich semantic features. However, despite their
success in 2D comprehension, their abilities on grasping 3D spatial
relationships are still unclear. In this work, we evaluate and enhance the 3D
awareness of ViT-based models. We begin by systematically assessing their
ability to learn 3D equivariant features, specifically examining the
consistency of semantic embeddings across different viewpoints. Our findings
indicate that improved 3D equivariance leads to better performance on various
downstream tasks, including pose estimation, tracking, and semantic transfer.
Building on this insight, we propose a simple yet effective finetuning strategy
based on 3D correspondences, which significantly enhances the 3D correspondence
understanding of existing vision models. Remarkably, even finetuning on a
single object for just one iteration results in substantial performance gains.
All code and resources will be made publicly available to support further
advancements in 3D-aware vision models. Our code is available at
https://github.com/qq456cvb/3DCorrEnhance.Summary
AI-Generated Summary