Verbesserung von 2D-Merkmalrepräsentationen durch feinabgestimmtes Training unter Berücksichtigung von 3D

papers.abstract

Aktuelle visuelle Grundlagenmodelle werden ausschließlich auf unstrukturierten 2D-Daten trainiert, was ihr Verständnis der 3D-Struktur von Objekten und Szenen einschränkt. In dieser Arbeit zeigen wir, dass Feinabstimmung auf 3D-bewussten Daten die Qualität der entstehenden semantischen Merkmale verbessert. Wir entwickeln eine Methode, um semantische 2D-Merkmale in eine effiziente 3D-Gaußsche Darstellung zu überführen, die es uns ermöglicht, sie für beliebige Ansichten neu zu rendern. Unter Verwendung der gerenderten 3D-bewussten Merkmale entwerfen wir eine Feinabstimmungsstrategie, um dieses 3D-Bewusstsein in ein 2D-Grundlagenmodell zu übertragen. Wir zeigen, dass Modelle, die auf diese Weise feinabgestimmt wurden, Merkmale erzeugen, die die Leistung bei nachgelagerten Aufgaben wie semantischer Segmentierung und Tiefenschätzung durch einfaches lineares Sondieren deutlich verbessern. Bemerkenswert ist, dass, obwohl auf einem einzigen Innenraum-Datensatz feinabgestimmt, die Verbesserung auf eine Vielzahl von Innenraum-Datensätzen und Datensätzen außerhalb des Domänen übertragbar ist. Wir hoffen, dass unsere Studie die Community dazu ermutigt, 3D-Bewusstsein in Betracht zu ziehen, wenn sie 2D-Grundlagenmodelle trainiert. Projektseite: https://ywyue.github.io/FiT3D.

English

Current visual foundation models are trained purely on unstructured 2D data, limiting their understanding of 3D structure of objects and scenes. In this work, we show that fine-tuning on 3D-aware data improves the quality of emerging semantic features. We design a method to lift semantic 2D features into an efficient 3D Gaussian representation, which allows us to re-render them for arbitrary views. Using the rendered 3D-aware features, we design a fine-tuning strategy to transfer such 3D awareness into a 2D foundation model. We demonstrate that models fine-tuned in that way produce features that readily improve downstream task performance in semantic segmentation and depth estimation through simple linear probing. Notably, though fined-tuned on a single indoor dataset, the improvement is transferable to a variety of indoor datasets and out-of-domain datasets. We hope our study encourages the community to consider injecting 3D awareness when training 2D foundation models. Project page: https://ywyue.github.io/FiT3D.

Verbesserung von 2D-Merkmalrepräsentationen durch feinabgestimmtes Training unter Berücksichtigung von 3D

Improving 2D Feature Representations by 3D-Aware Fine-Tuning

papers.abstract

Support