Verbesserung von 2D-Merkmalrepräsentationen durch feinabgestimmtes Training unter Berücksichtigung von 3D
Improving 2D Feature Representations by 3D-Aware Fine-Tuning
July 29, 2024
Autoren: Yuanwen Yue, Anurag Das, Francis Engelmann, Siyu Tang, Jan Eric Lenssen
cs.AI
Zusammenfassung
Aktuelle visuelle Grundlagenmodelle werden ausschließlich auf unstrukturierten 2D-Daten trainiert, was ihr Verständnis der 3D-Struktur von Objekten und Szenen einschränkt. In dieser Arbeit zeigen wir, dass Feinabstimmung auf 3D-bewussten Daten die Qualität der entstehenden semantischen Merkmale verbessert. Wir entwickeln eine Methode, um semantische 2D-Merkmale in eine effiziente 3D-Gaußsche Darstellung zu überführen, die es uns ermöglicht, sie für beliebige Ansichten neu zu rendern. Unter Verwendung der gerenderten 3D-bewussten Merkmale entwerfen wir eine Feinabstimmungsstrategie, um dieses 3D-Bewusstsein in ein 2D-Grundlagenmodell zu übertragen. Wir zeigen, dass Modelle, die auf diese Weise feinabgestimmt wurden, Merkmale erzeugen, die die Leistung bei nachgelagerten Aufgaben wie semantischer Segmentierung und Tiefenschätzung durch einfaches lineares Sondieren deutlich verbessern. Bemerkenswert ist, dass, obwohl auf einem einzigen Innenraum-Datensatz feinabgestimmt, die Verbesserung auf eine Vielzahl von Innenraum-Datensätzen und Datensätzen außerhalb des Domänen übertragbar ist. Wir hoffen, dass unsere Studie die Community dazu ermutigt, 3D-Bewusstsein in Betracht zu ziehen, wenn sie 2D-Grundlagenmodelle trainiert. Projektseite: https://ywyue.github.io/FiT3D.
English
Current visual foundation models are trained purely on unstructured 2D data,
limiting their understanding of 3D structure of objects and scenes. In this
work, we show that fine-tuning on 3D-aware data improves the quality of
emerging semantic features. We design a method to lift semantic 2D features
into an efficient 3D Gaussian representation, which allows us to re-render them
for arbitrary views. Using the rendered 3D-aware features, we design a
fine-tuning strategy to transfer such 3D awareness into a 2D foundation model.
We demonstrate that models fine-tuned in that way produce features that readily
improve downstream task performance in semantic segmentation and depth
estimation through simple linear probing. Notably, though fined-tuned on a
single indoor dataset, the improvement is transferable to a variety of indoor
datasets and out-of-domain datasets. We hope our study encourages the community
to consider injecting 3D awareness when training 2D foundation models. Project
page: https://ywyue.github.io/FiT3D.Summary
AI-Generated Summary