Φeat: 물리 기반 특징 표현
Φeat: Physically-Grounded Feature Representation
November 14, 2025
저자: Giuseppe Vecchio, Adrien Kaiser, Rouffet Romain, Rosalie Martin, Elena Garces, Tamy Boubekeur
cs.AI
초록
파운데이션 모델은 많은 비전 과제에서 효과적인 백본으로 부상하고 있습니다. 그러나 현재의 자기 지도 특성은 높은 수준의 의미 정보를 기하학 및 조명과 같은 낮은 수준의 물리적 요소와 얽히게 하여, 명시적인 물리적 추론을 필요로 하는 과제에서의 활용을 저해하고 있습니다. 본 논문에서는 재료 식별(반사 신호 및 기하학적 메조구조 포함)에 민감한 표현을 유도하는 새로운 물리 기반 시각 백본인 Φeat를 소개합니다. 우리의 핵심 아이디어는 다양한 형태와 조명 조건 하에서 동일한 재료의 공간 크롭과 물리적 증강을 대조하는 사전 훈련 전략을 채택하는 것입니다. 유사한 데이터가 내재 분해나 재료 추정과 같은 고급 지도 과제에서 사용되어 왔지만, 우리는 명시적 레이블 없이 순수 자기 지도 훈련 전략만으로도 외부 물리적 요소에 불변하는 강건한 특성을 요구하는 과제에 강력한 사전 지식을 제공함을 입증합니다. 우리는 학습된 표현을 특성 유사도 분석과 재료 선택을 통해 평가하며, Φeat가 의미적 그룹화를 넘어 물리적으로 근거 있는 구조를 포착함을 보여줍니다. 이러한 결과는 비전 및 그래픽 분야에서 물리 인지 인식을 위한 기초로 무인도 물리 특성 학습의 가능성을 강조합니다.
English
Foundation models have emerged as effective backbones for many vision tasks. However, current self-supervised features entangle high-level semantics with low-level physical factors, such as geometry and illumination, hindering their use in tasks requiring explicit physical reasoning. In this paper, we introduce Φeat, a novel physically-grounded visual backbone that encourages a representation sensitive to material identity, including reflectance cues and geometric mesostructure. Our key idea is to employ a pretraining strategy that contrasts spatial crops and physical augmentations of the same material under varying shapes and lighting conditions. While similar data have been used in high-end supervised tasks such as intrinsic decomposition or material estimation, we demonstrate that a pure self-supervised training strategy, without explicit labels, already provides a strong prior for tasks requiring robust features invariant to external physical factors. We evaluate the learned representations through feature similarity analysis and material selection, showing that Φeat captures physically-grounded structure beyond semantic grouping. These findings highlight the promise of unsupervised physical feature learning as a foundation for physics-aware perception in vision and graphics. These findings highlight the promise of unsupervised physical feature learning as a foundation for physics-aware perception in vision and graphics.