L'equiarianza multiview migliora la comprensione della corrispondenza 3D con un minimo di raffinamento delle caratteristiche.
Multiview Equivariance Improves 3D Correspondence Understanding with Minimal Feature Finetuning
November 29, 2024
Autori: Yang You, Yixin Li, Congyue Deng, Yue Wang, Leonidas Guibas
cs.AI
Abstract
I modelli fondamentali di visione, in particolare la famiglia ViT, hanno rivoluzionato la comprensione delle immagini fornendo ricche caratteristiche semantiche. Tuttavia, nonostante il loro successo nella comprensione 2D, le loro capacità di comprendere le relazioni spaziali in 3D sono ancora poco chiare. In questo lavoro valutiamo e potenziamo la consapevolezza in 3D dei modelli basati su ViT. Iniziamo valutando sistematicamente la loro capacità di apprendere caratteristiche 3D equivarianti, esaminando specificamente la coerenza degli embedding semantici tra diversi punti di vista. I nostri risultati indicano che un'equiarianza 3D migliorata porta a migliori prestazioni su varie attività derivate, inclusa la stima della posa, il tracciamento e il trasferimento semantico. Sulla base di questa intuizione, proponiamo una strategia di fine-tuning semplice ma efficace basata su corrispondenze 3D, che potenzia significativamente la comprensione delle corrispondenze 3D dei modelli di visione esistenti. Sorprendentemente, anche il fine-tuning su un singolo oggetto per una sola iterazione porta a notevoli miglioramenti delle prestazioni. Tutto il codice e le risorse saranno resi pubblicamente disponibili per supportare ulteriori progressi nei modelli di visione consapevoli in 3D. Il nostro codice è disponibile su https://github.com/qq456cvb/3DCorrEnhance.
English
Vision foundation models, particularly the ViT family, have revolutionized
image understanding by providing rich semantic features. However, despite their
success in 2D comprehension, their abilities on grasping 3D spatial
relationships are still unclear. In this work, we evaluate and enhance the 3D
awareness of ViT-based models. We begin by systematically assessing their
ability to learn 3D equivariant features, specifically examining the
consistency of semantic embeddings across different viewpoints. Our findings
indicate that improved 3D equivariance leads to better performance on various
downstream tasks, including pose estimation, tracking, and semantic transfer.
Building on this insight, we propose a simple yet effective finetuning strategy
based on 3D correspondences, which significantly enhances the 3D correspondence
understanding of existing vision models. Remarkably, even finetuning on a
single object for just one iteration results in substantial performance gains.
All code and resources will be made publicly available to support further
advancements in 3D-aware vision models. Our code is available at
https://github.com/qq456cvb/3DCorrEnhance.Summary
AI-Generated Summary