A Equivariância Multivisão Melhora a Compreensão da Correspondência 3D com um Mínimo de Ajuste Fino de Recursos.
Multiview Equivariance Improves 3D Correspondence Understanding with Minimal Feature Finetuning
November 29, 2024
Autores: Yang You, Yixin Li, Congyue Deng, Yue Wang, Leonidas Guibas
cs.AI
Resumo
Os modelos de base visual, em particular a família ViT, revolucionaram a compreensão de imagens ao fornecer recursos semânticos ricos. No entanto, apesar de seu sucesso na compreensão 2D, suas habilidades em compreender relacionamentos espaciais 3D ainda não estão claras. Neste trabalho, avaliamos e aprimoramos a consciência 3D dos modelos baseados em ViT. Começamos avaliando sistematicamente sua capacidade de aprender recursos 3D equivariantes, examinando especificamente a consistência das incorporações semânticas em diferentes pontos de vista. Nossas descobertas indicam que uma melhor equivariância 3D leva a um melhor desempenho em várias tarefas subsequentes, incluindo estimativa de pose, rastreamento e transferência semântica. Com base nessa percepção, propomos uma estratégia de ajuste simples, porém eficaz, com base em correspondências 3D, que aprimora significativamente a compreensão de correspondências 3D dos modelos de visão existentes. Notavelmente, mesmo o ajuste fino em um único objeto por apenas uma iteração resulta em ganhos de desempenho substanciais. Todo o código e recursos estarão disponíveis publicamente para apoiar futuros avanços em modelos de visão conscientes de 3D. Nosso código está disponível em https://github.com/qq456cvb/3DCorrEnhance.
English
Vision foundation models, particularly the ViT family, have revolutionized
image understanding by providing rich semantic features. However, despite their
success in 2D comprehension, their abilities on grasping 3D spatial
relationships are still unclear. In this work, we evaluate and enhance the 3D
awareness of ViT-based models. We begin by systematically assessing their
ability to learn 3D equivariant features, specifically examining the
consistency of semantic embeddings across different viewpoints. Our findings
indicate that improved 3D equivariance leads to better performance on various
downstream tasks, including pose estimation, tracking, and semantic transfer.
Building on this insight, we propose a simple yet effective finetuning strategy
based on 3D correspondences, which significantly enhances the 3D correspondence
understanding of existing vision models. Remarkably, even finetuning on a
single object for just one iteration results in substantial performance gains.
All code and resources will be made publicly available to support further
advancements in 3D-aware vision models. Our code is available at
https://github.com/qq456cvb/3DCorrEnhance.Summary
AI-Generated Summary