Φeat: Физически обоснованное представление признаков
Φeat: Physically-Grounded Feature Representation
November 14, 2025
Авторы: Giuseppe Vecchio, Adrien Kaiser, Rouffet Romain, Rosalie Martin, Elena Garces, Tamy Boubekeur
cs.AI
Аннотация
Фундаментальные модели стали эффективной основой для многих задач компьютерного зрения. Однако современные самоконтролируемые признаки смешивают высокоуровневую семантику с низкоуровневыми физическими факторами, такими как геометрия и освещение, что затрудняет их использование в задачах, требующих явного физического анализа. В данной статье мы представляем Φeat — новую физически обоснованную визуальную модель, которая формирует представление, чувствительное к идентичности материала, включая признаки отражательной способности и мезоструктуру геометрии. Наша ключевая идея заключается в использовании стратегии предварительного обучения, основанной на контрастировании пространственных срезов и физических аугментаций одного материала при различных формах и условиях освещения. Хотя аналогичные данные использовались в сложных контролируемых задачах, таких как интринсик-декомпозиция или оценка материалов, мы демонстрируем, что чисто самоконтролируемая стратегия обучения без явных меток уже формирует сильный априорный признак для задач, требующих устойчивых к внешним физическим факторам характеристик. Мы оцениваем полученные представления через анализ сходства признаков и селекцию материалов, показывая, что Φeat захватывает физически обоснованную структуру, выходящую за рамки семантической группировки. Эти результаты подчеркивают перспективность неконтролируемого обучения физическим признакам как основы для физически осознанного восприятия в компьютерном зрении и графике.
English
Foundation models have emerged as effective backbones for many vision tasks. However, current self-supervised features entangle high-level semantics with low-level physical factors, such as geometry and illumination, hindering their use in tasks requiring explicit physical reasoning. In this paper, we introduce Φeat, a novel physically-grounded visual backbone that encourages a representation sensitive to material identity, including reflectance cues and geometric mesostructure. Our key idea is to employ a pretraining strategy that contrasts spatial crops and physical augmentations of the same material under varying shapes and lighting conditions. While similar data have been used in high-end supervised tasks such as intrinsic decomposition or material estimation, we demonstrate that a pure self-supervised training strategy, without explicit labels, already provides a strong prior for tasks requiring robust features invariant to external physical factors. We evaluate the learned representations through feature similarity analysis and material selection, showing that Φeat captures physically-grounded structure beyond semantic grouping. These findings highlight the promise of unsupervised physical feature learning as a foundation for physics-aware perception in vision and graphics. These findings highlight the promise of unsupervised physical feature learning as a foundation for physics-aware perception in vision and graphics.