ChatPaper.aiChatPaper

Φeat: Fysiek Gegronde Kenmerkrepresentatie

Φeat: Physically-Grounded Feature Representation

November 14, 2025
Auteurs: Giuseppe Vecchio, Adrien Kaiser, Rouffet Romain, Rosalie Martin, Elena Garces, Tamy Boubekeur
cs.AI

Samenvatting

Fundamentele modellen zijn effectieve ruggengraten gebleken voor veel visuele taken. Huidige zelf-ondersteunde kenmerken verstrengelen echter hoogwaardige semantiek met laagwaardige fysieke factoren, zoals geometrie en belichting, wat hun gebruik belemmert bij taken die expliciet fysiek redeneren vereisen. In dit artikel introduceren we Φeat, een nieuwe visuele ruggengraat met een fysieke basis, die een representatie bevordert die gevoelig is voor materiaalidentiteit, inclusief reflectie-aanwijzingen en geometrische mesostructuur. Onze kernidee is om een voorafgaande trainingsstrategie toe te passen die ruimtelijke uitsneden en fysieke augmentaties van hetzelfde materiaal onder verschillende vormen en lichtomstandigheden contrasteert. Hoewel vergelijkbare data zijn gebruikt in hoogwaardige, begeleide taken zoals intrinsieke decompositie of materiaalschatting, tonen we aan dat een puur zelf-ondersteunde trainingsstrategie, zonder expliciete labels, reeds een sterke basis biedt voor taken die robuuste kenmerken vereisen die invariant zijn voor externe fysieke factoren. We evalueren de geleerde representaties door analyse van kenmerkovereenkomst en materiaalselectie, en tonen aan dat Φeat fysiek gefundeerde structuur vastlegt die verder gaat dan semantische groepering. Deze bevindingen benadrukken de belofte van niet-gesuperviseerd leren van fysieke kenmerken als basis voor fysiek-bewuste perceptie in visie en grafische toepassingen.
English
Foundation models have emerged as effective backbones for many vision tasks. However, current self-supervised features entangle high-level semantics with low-level physical factors, such as geometry and illumination, hindering their use in tasks requiring explicit physical reasoning. In this paper, we introduce Φeat, a novel physically-grounded visual backbone that encourages a representation sensitive to material identity, including reflectance cues and geometric mesostructure. Our key idea is to employ a pretraining strategy that contrasts spatial crops and physical augmentations of the same material under varying shapes and lighting conditions. While similar data have been used in high-end supervised tasks such as intrinsic decomposition or material estimation, we demonstrate that a pure self-supervised training strategy, without explicit labels, already provides a strong prior for tasks requiring robust features invariant to external physical factors. We evaluate the learned representations through feature similarity analysis and material selection, showing that Φeat captures physically-grounded structure beyond semantic grouping. These findings highlight the promise of unsupervised physical feature learning as a foundation for physics-aware perception in vision and graphics. These findings highlight the promise of unsupervised physical feature learning as a foundation for physics-aware perception in vision and graphics.
PDF102December 1, 2025