L'equiarianza multiview migliora la comprensione della corrispondenza 3D con un minimo di raffinamento delle caratteristiche.

Abstract

I modelli fondamentali di visione, in particolare la famiglia ViT, hanno rivoluzionato la comprensione delle immagini fornendo ricche caratteristiche semantiche. Tuttavia, nonostante il loro successo nella comprensione 2D, le loro capacità di comprendere le relazioni spaziali in 3D sono ancora poco chiare. In questo lavoro valutiamo e potenziamo la consapevolezza in 3D dei modelli basati su ViT. Iniziamo valutando sistematicamente la loro capacità di apprendere caratteristiche 3D equivarianti, esaminando specificamente la coerenza degli embedding semantici tra diversi punti di vista. I nostri risultati indicano che un'equiarianza 3D migliorata porta a migliori prestazioni su varie attività derivate, inclusa la stima della posa, il tracciamento e il trasferimento semantico. Sulla base di questa intuizione, proponiamo una strategia di fine-tuning semplice ma efficace basata su corrispondenze 3D, che potenzia significativamente la comprensione delle corrispondenze 3D dei modelli di visione esistenti. Sorprendentemente, anche il fine-tuning su un singolo oggetto per una sola iterazione porta a notevoli miglioramenti delle prestazioni. Tutto il codice e le risorse saranno resi pubblicamente disponibili per supportare ulteriori progressi nei modelli di visione consapevoli in 3D. Il nostro codice è disponibile su https://github.com/qq456cvb/3DCorrEnhance.

English

Vision foundation models, particularly the ViT family, have revolutionized image understanding by providing rich semantic features. However, despite their success in 2D comprehension, their abilities on grasping 3D spatial relationships are still unclear. In this work, we evaluate and enhance the 3D awareness of ViT-based models. We begin by systematically assessing their ability to learn 3D equivariant features, specifically examining the consistency of semantic embeddings across different viewpoints. Our findings indicate that improved 3D equivariance leads to better performance on various downstream tasks, including pose estimation, tracking, and semantic transfer. Building on this insight, we propose a simple yet effective finetuning strategy based on 3D correspondences, which significantly enhances the 3D correspondence understanding of existing vision models. Remarkably, even finetuning on a single object for just one iteration results in substantial performance gains. All code and resources will be made publicly available to support further advancements in 3D-aware vision models. Our code is available at https://github.com/qq456cvb/3DCorrEnhance.

L'equiarianza multiview migliora la comprensione della corrispondenza 3D con un minimo di raffinamento delle caratteristiche.

Multiview Equivariance Improves 3D Correspondence Understanding with Minimal Feature Finetuning

Abstract

Support