Φeat : Représentation de caractéristiques fondée sur la physique
Φeat: Physically-Grounded Feature Representation
November 14, 2025
papers.authors: Giuseppe Vecchio, Adrien Kaiser, Rouffet Romain, Rosalie Martin, Elena Garces, Tamy Boubekeur
cs.AI
papers.abstract
Les modèles de fondation sont apparus comme des architectures efficaces pour de nombreuses tâches de vision. Cependant, les caractéristiques auto-supervisées actuelles entremêlent la sémantique de haut niveau avec des facteurs physiques de bas niveau, tels que la géométrie et l'éclairage, ce qui entrave leur utilisation dans les tâches nécessitant un raisonnement physique explicite. Dans cet article, nous présentons Φeat, une nouvelle architecture visuelle ancrée dans la physique qui favorise une représentation sensible à l'identité matérielle, incluant les indices de réflectance et la mésostructure géométrique. Notre idée clé est d'employer une stratégie de pré-entraînement qui oppose des recadrages spatiaux et des augmentations physiques d'un même matériau sous différentes formes et conditions d'éclairage. Bien que des données similaires aient été utilisées dans des tâches supervisées spécialisées comme la décomposition intrinsèque ou l'estimation de matériaux, nous démontrons qu'une stratégie d'entraînement purement auto-supervisée, sans étiquettes explicites, fournit déjà une forte antériorité pour les tâches nécessitant des caractéristiques robustes invariantes aux facteurs physiques externes. Nous évaluons les représentations apprises par l'analyse de similarité des caractéristiques et la sélection de matériaux, montrant que Φeat capture une structure physiquement fondée au-delà du regroupement sémantique. Ces résultats soulignent le potentiel de l'apprentissage non supervisé de caractéristiques physiques comme fondement pour une perception consciente de la physique en vision et en graphisme.
English
Foundation models have emerged as effective backbones for many vision tasks. However, current self-supervised features entangle high-level semantics with low-level physical factors, such as geometry and illumination, hindering their use in tasks requiring explicit physical reasoning. In this paper, we introduce Φeat, a novel physically-grounded visual backbone that encourages a representation sensitive to material identity, including reflectance cues and geometric mesostructure. Our key idea is to employ a pretraining strategy that contrasts spatial crops and physical augmentations of the same material under varying shapes and lighting conditions. While similar data have been used in high-end supervised tasks such as intrinsic decomposition or material estimation, we demonstrate that a pure self-supervised training strategy, without explicit labels, already provides a strong prior for tasks requiring robust features invariant to external physical factors. We evaluate the learned representations through feature similarity analysis and material selection, showing that Φeat captures physically-grounded structure beyond semantic grouping. These findings highlight the promise of unsupervised physical feature learning as a foundation for physics-aware perception in vision and graphics. These findings highlight the promise of unsupervised physical feature learning as a foundation for physics-aware perception in vision and graphics.