3D認識による微調整による2D特徴表現の改善
Improving 2D Feature Representations by 3D-Aware Fine-Tuning
July 29, 2024
著者: Yuanwen Yue, Anurag Das, Francis Engelmann, Siyu Tang, Jan Eric Lenssen
cs.AI
要旨
現在の視覚基盤モデルは、非構造化の2Dデータのみで訓練されており、物体やシーンの3D構造の理解が制限されています。本研究では、3Dを意識したデータによるファインチューニングが、新たに出現する意味的特徴の品質を向上させることを示します。私たちは、意味的2D特徴を効率的な3Dガウス表現に変換する手法を設計し、任意の視点でそれらを再レンダリングできるようにしました。レンダリングされた3Dを意識した特徴を用いて、2D基盤モデルにそのような3D認識を転移するファインチューニング戦略を設計しました。この方法でファインチューニングされたモデルは、単純な線形プローブを通じて、セマンティックセグメンテーションや深度推定などの下流タスクの性能を容易に向上させる特徴を生成することを実証します。特に、単一の屋内データセットでファインチューニングされたにもかかわらず、その改善はさまざまな屋内データセットやドメイン外のデータセットに転移可能です。私たちの研究が、2D基盤モデルの訓練において3D認識を注入することをコミュニティに検討させることを期待しています。プロジェクトページ: https://ywyue.github.io/FiT3D。
English
Current visual foundation models are trained purely on unstructured 2D data,
limiting their understanding of 3D structure of objects and scenes. In this
work, we show that fine-tuning on 3D-aware data improves the quality of
emerging semantic features. We design a method to lift semantic 2D features
into an efficient 3D Gaussian representation, which allows us to re-render them
for arbitrary views. Using the rendered 3D-aware features, we design a
fine-tuning strategy to transfer such 3D awareness into a 2D foundation model.
We demonstrate that models fine-tuned in that way produce features that readily
improve downstream task performance in semantic segmentation and depth
estimation through simple linear probing. Notably, though fined-tuned on a
single indoor dataset, the improvement is transferable to a variety of indoor
datasets and out-of-domain datasets. We hope our study encourages the community
to consider injecting 3D awareness when training 2D foundation models. Project
page: https://ywyue.github.io/FiT3D.Summary
AI-Generated Summary