Mejora de Representaciones de Características 2D mediante Ajuste Fino Consciente de 3D
Improving 2D Feature Representations by 3D-Aware Fine-Tuning
July 29, 2024
Autores: Yuanwen Yue, Anurag Das, Francis Engelmann, Siyu Tang, Jan Eric Lenssen
cs.AI
Resumen
Los modelos visuales actuales se entrenan únicamente con datos 2D no estructurados, lo que limita su comprensión de la estructura 3D de objetos y escenas. En este trabajo, demostramos que el ajuste fino con datos 3D mejora la calidad de las características semánticas emergentes. Diseñamos un método para transformar características semánticas 2D en una representación Gaussiana 3D eficiente, lo que nos permite volver a renderizarlas para vistas arbitrarias. Utilizando las características 3D renderizadas, diseñamos una estrategia de ajuste fino para transferir esta conciencia 3D a un modelo visual 2D. Demostramos que los modelos ajustados de esta manera producen características que mejoran fácilmente el rendimiento en tareas posteriores de segmentación semántica y estimación de profundidad a través de sondas lineales simples. Es notable que, aunque se ajustan con un solo conjunto de datos de interiores, la mejora es transferible a una variedad de conjuntos de datos de interiores y conjuntos de datos fuera del dominio. Esperamos que nuestro estudio anime a la comunidad a considerar la inyección de conciencia 3D al entrenar modelos visuales 2D. Página del proyecto: https://ywyue.github.io/FiT3D.
English
Current visual foundation models are trained purely on unstructured 2D data,
limiting their understanding of 3D structure of objects and scenes. In this
work, we show that fine-tuning on 3D-aware data improves the quality of
emerging semantic features. We design a method to lift semantic 2D features
into an efficient 3D Gaussian representation, which allows us to re-render them
for arbitrary views. Using the rendered 3D-aware features, we design a
fine-tuning strategy to transfer such 3D awareness into a 2D foundation model.
We demonstrate that models fine-tuned in that way produce features that readily
improve downstream task performance in semantic segmentation and depth
estimation through simple linear probing. Notably, though fined-tuned on a
single indoor dataset, the improvement is transferable to a variety of indoor
datasets and out-of-domain datasets. We hope our study encourages the community
to consider injecting 3D awareness when training 2D foundation models. Project
page: https://ywyue.github.io/FiT3D.Summary
AI-Generated Summary