Улучшение 2D-представлений признаков путем тонкой настройки с учетом 3D информации
Improving 2D Feature Representations by 3D-Aware Fine-Tuning
July 29, 2024
Авторы: Yuanwen Yue, Anurag Das, Francis Engelmann, Siyu Tang, Jan Eric Lenssen
cs.AI
Аннотация
Существующие модели визуальных основ основаны исключительно на неструктурированных 2D данных, что ограничивает их понимание 3D структуры объектов и сцен. В данной работе мы показываем, что донастройка на 3D-осознанных данных улучшает качество возникающих семантических признаков. Мы разрабатываем метод для преобразования семантических 2D признаков в эффективное 3D гауссовское представление, что позволяет нам повторно отобразить их для произвольных видов. Используя отображенные 3D-осознанные признаки, мы разрабатываем стратегию донастройки для передачи такого 3D осознания в 2D модель основы. Мы демонстрируем, что модели, донастроенные таким образом, производят признаки, которые значительно улучшают производительность последующих задач в семантической сегментации и оценке глубины через простое линейное зондирование. Особенно стоит отметить, что хотя донастроены на одном внутреннем наборе данных, улучшения могут быть переданы на различные внутренние и внедоменные наборы данных. Мы надеемся, что наше исследование побудит сообщество рассмотреть внедрение 3D осознания при обучении 2D моделей основы. Страница проекта: https://ywyue.github.io/FiT3D.
English
Current visual foundation models are trained purely on unstructured 2D data,
limiting their understanding of 3D structure of objects and scenes. In this
work, we show that fine-tuning on 3D-aware data improves the quality of
emerging semantic features. We design a method to lift semantic 2D features
into an efficient 3D Gaussian representation, which allows us to re-render them
for arbitrary views. Using the rendered 3D-aware features, we design a
fine-tuning strategy to transfer such 3D awareness into a 2D foundation model.
We demonstrate that models fine-tuned in that way produce features that readily
improve downstream task performance in semantic segmentation and depth
estimation through simple linear probing. Notably, though fined-tuned on a
single indoor dataset, the improvement is transferable to a variety of indoor
datasets and out-of-domain datasets. We hope our study encourages the community
to consider injecting 3D awareness when training 2D foundation models. Project
page: https://ywyue.github.io/FiT3D.Summary
AI-Generated Summary