ChatPaper.aiChatPaper

Φeat: Physikalisch fundierte Merkmalsrepräsentation

Φeat: Physically-Grounded Feature Representation

November 14, 2025
papers.authors: Giuseppe Vecchio, Adrien Kaiser, Rouffet Romain, Rosalie Martin, Elena Garces, Tamy Boubekeur
cs.AI

papers.abstract

Foundation Models haben sich als effektive Grundarchitekturen für viele Vision-Aufgaben erwiesen. Allerdings vermischen aktuelle selbstüberwachte Merkmale hochlevelige Semantik mit low-level physikalischen Faktoren wie Geometrie und Beleuchtung, was ihre Verwendung in Aufgaben erschwert, die explizite physikalische Schlussfolgerungen erfordern. In diesem Artikel stellen wir Φeat vor, eine neuartige physikalisch fundierte visuelle Basisarchitektur, die eine Repräsentation fördert, die empfindlich auf Materialidentität reagiert, einschließlich Reflexionshinweisen und geometrischer Mesostruktur. Unser zentraler Ansatz ist eine Pre-training-Strategie, die räumliche Ausschnitte und physikalische Augmentierungen desselben Materials unter variierenden Formen und Beleuchtungsbedingungen kontrastiert. Während ähnliche Daten bereits für hochwertige überwachte Aufgaben wie intrinsische Dekomposition oder Materialschätzung verwendet wurden, zeigen wir, dass eine rein selbstüberwachte Trainingsstrategie ohne explizite Labels bereits eine starke Priorität für Aufgaben liefert, die robuste Merkmale erfordern, die invariant gegenüber externen physikalischen Faktoren sind. Wir evaluieren die gelernten Repräsentationen durch Ähnlichkeitsanalysen von Merkmalen und Materialauswahl und zeigen, dass Φeat physikalisch fundierte Strukturen erfasst, die über semantische Gruppierungen hinausgehen. Diese Ergebnisse unterstreichen das Potenzial von unüberwachtem physikalischem Merkmalslernen als Grundlage für physikbewusste Wahrnehmung in Vision und Grafik.
English
Foundation models have emerged as effective backbones for many vision tasks. However, current self-supervised features entangle high-level semantics with low-level physical factors, such as geometry and illumination, hindering their use in tasks requiring explicit physical reasoning. In this paper, we introduce Φeat, a novel physically-grounded visual backbone that encourages a representation sensitive to material identity, including reflectance cues and geometric mesostructure. Our key idea is to employ a pretraining strategy that contrasts spatial crops and physical augmentations of the same material under varying shapes and lighting conditions. While similar data have been used in high-end supervised tasks such as intrinsic decomposition or material estimation, we demonstrate that a pure self-supervised training strategy, without explicit labels, already provides a strong prior for tasks requiring robust features invariant to external physical factors. We evaluate the learned representations through feature similarity analysis and material selection, showing that Φeat captures physically-grounded structure beyond semantic grouping. These findings highlight the promise of unsupervised physical feature learning as a foundation for physics-aware perception in vision and graphics. These findings highlight the promise of unsupervised physical feature learning as a foundation for physics-aware perception in vision and graphics.
PDF102December 1, 2025