ChatPaper.aiChatPaper

Φeat: 物理ベースの特徴量表現

Φeat: Physically-Grounded Feature Representation

November 14, 2025
著者: Giuseppe Vecchio, Adrien Kaiser, Rouffet Romain, Rosalie Martin, Elena Garces, Tamy Boubekeur
cs.AI

要旨

ファンデーションモデルは、多くの視覚タスクにおいて効果的な基盤として登場している。しかし、現在の自己教師あり特徴表現は、高レベルな意味情報と幾何学や照明といった低レベルな物理的要因とを混在させており、明示的な物理的推論を必要とするタスクでの利用を妨げている。本論文では、反射特性や幾何学的微細構造を含む材質の同一性に敏感な表現を促進する、新たな物理基盤型視覚バックボーンであるΦeatを提案する。我々の重要なアイデアは、形状や照明条件が変化する中で同一材質の空間的クロップと物理的拡張を対比させる事前学習戦略を採用することである。固有分解や材質推定といった高精度な教師ありタスクでは同様のデータが使用されてきたが、明示的なラベルなしの純粋な自己教師あり学習戦略のみでも、外的物理要因に不変な頑健な特徴を必要とするタスクに対して強力な事前知識を既に提供できることを実証する。特徴類似性解析と材質選択を通じて学習された表現を評価し、Φeatが意味的なグループ分けを超えた物理的に基礎付けられた構造を捕捉することを示す。これらの知見は、教師なし物理特徴学習が、視覚およびグラフィックスにおける物理認識知覚の基盤として有望であることを強調している。
English
Foundation models have emerged as effective backbones for many vision tasks. However, current self-supervised features entangle high-level semantics with low-level physical factors, such as geometry and illumination, hindering their use in tasks requiring explicit physical reasoning. In this paper, we introduce Φeat, a novel physically-grounded visual backbone that encourages a representation sensitive to material identity, including reflectance cues and geometric mesostructure. Our key idea is to employ a pretraining strategy that contrasts spatial crops and physical augmentations of the same material under varying shapes and lighting conditions. While similar data have been used in high-end supervised tasks such as intrinsic decomposition or material estimation, we demonstrate that a pure self-supervised training strategy, without explicit labels, already provides a strong prior for tasks requiring robust features invariant to external physical factors. We evaluate the learned representations through feature similarity analysis and material selection, showing that Φeat captures physically-grounded structure beyond semantic grouping. These findings highlight the promise of unsupervised physical feature learning as a foundation for physics-aware perception in vision and graphics. These findings highlight the promise of unsupervised physical feature learning as a foundation for physics-aware perception in vision and graphics.
PDF102December 1, 2025