Amélioration des représentations de caractéristiques 2D par ajustement fin 3D-conscient
Improving 2D Feature Representations by 3D-Aware Fine-Tuning
July 29, 2024
Auteurs: Yuanwen Yue, Anurag Das, Francis Engelmann, Siyu Tang, Jan Eric Lenssen
cs.AI
Résumé
Les modèles de fondation visuels actuels sont entraînés exclusivement sur des données 2D non structurées, ce qui limite leur compréhension de la structure 3D des objets et des scènes. Dans ce travail, nous montrons que l'affinage sur des données conscientes de la 3D améliore la qualité des caractéristiques sémantiques émergentes. Nous concevons une méthode pour transformer les caractéristiques sémantiques 2D en une représentation 3D efficace basée sur des gaussiennes, ce qui nous permet de les re-rendre pour des vues arbitraires. En utilisant les caractéristiques rendues conscientes de la 3D, nous concevons une stratégie d'affinage pour transférer cette conscience 3D dans un modèle de fondation 2D. Nous démontrons que les modèles affinés de cette manière produisent des caractéristiques qui améliorent directement les performances des tâches en aval, telles que la segmentation sémantique et l'estimation de la profondeur, grâce à un simple sondage linéaire. Notamment, bien qu'affinés sur un seul ensemble de données intérieures, l'amélioration est transférable à une variété de jeux de données intérieurs et à des ensembles de données hors domaine. Nous espérons que notre étude encouragera la communauté à envisager d'injecter une conscience 3D lors de l'entraînement des modèles de fondation 2D. Page du projet : https://ywyue.github.io/FiT3D.
English
Current visual foundation models are trained purely on unstructured 2D data,
limiting their understanding of 3D structure of objects and scenes. In this
work, we show that fine-tuning on 3D-aware data improves the quality of
emerging semantic features. We design a method to lift semantic 2D features
into an efficient 3D Gaussian representation, which allows us to re-render them
for arbitrary views. Using the rendered 3D-aware features, we design a
fine-tuning strategy to transfer such 3D awareness into a 2D foundation model.
We demonstrate that models fine-tuned in that way produce features that readily
improve downstream task performance in semantic segmentation and depth
estimation through simple linear probing. Notably, though fined-tuned on a
single indoor dataset, the improvement is transferable to a variety of indoor
datasets and out-of-domain datasets. We hope our study encourages the community
to consider injecting 3D awareness when training 2D foundation models. Project
page: https://ywyue.github.io/FiT3D.Summary
AI-Generated Summary