ChatPaper.aiChatPaper

Φeat: Rappresentazione di Caratteristiche Fondate Fisicamente

Φeat: Physically-Grounded Feature Representation

November 14, 2025
Autori: Giuseppe Vecchio, Adrien Kaiser, Rouffet Romain, Rosalie Martin, Elena Garces, Tamy Boubekeur
cs.AI

Abstract

I modelli fondazionali sono emersi come architetture di base efficaci per molte attività di visione artificiale. Tuttavia, le caratteristiche auto-supervisionate attuali intrecciano la semantica di alto livello con fattori fisici di basso livello, come la geometria e l'illuminazione, ostacolandone l'uso in compiti che richiedono un ragionamento fisico esplicito. In questo articolo, introduciamo Φeat, una nuova backbone visiva basata sulla fisica che incoraggia una rappresentazione sensibile all'identità del materiale, inclusi gli indizi di riflettanza e la mesostruttura geometrica. La nostra idea chiave è impiegare una strategia di pre-addestramento che metta a confronto ritagli spaziali e aumentazioni fisiche dello stesso materiale sotto forme e condizioni di illuminazione variabili. Sebbene dati simili siano stati utilizzati in compiti supervisionati avanzati come la scomposizione intrinseca o la stima del materiale, dimostriamo che una strategia di addestramento puramente auto-supervisionata, senza etichette esplicite, fornisce già un forte precedente per compiti che richiedono caratteristiche robuste invarianti ai fattori fisici esterni. Valutiamo le rappresentazioni apprese attraverso l'analisi della similarità delle caratteristiche e la selezione dei materiali, mostrando che Φeat cattura una struttura fondata sulla fisica che va oltre il raggruppamento semantico. Questi risultati evidenziano la promessa dell'apprendimento non supervisionato di caratteristiche fisiche come base per una percezione consapevole della fisica nella visione artificiale e nella grafica.
English
Foundation models have emerged as effective backbones for many vision tasks. However, current self-supervised features entangle high-level semantics with low-level physical factors, such as geometry and illumination, hindering their use in tasks requiring explicit physical reasoning. In this paper, we introduce Φeat, a novel physically-grounded visual backbone that encourages a representation sensitive to material identity, including reflectance cues and geometric mesostructure. Our key idea is to employ a pretraining strategy that contrasts spatial crops and physical augmentations of the same material under varying shapes and lighting conditions. While similar data have been used in high-end supervised tasks such as intrinsic decomposition or material estimation, we demonstrate that a pure self-supervised training strategy, without explicit labels, already provides a strong prior for tasks requiring robust features invariant to external physical factors. We evaluate the learned representations through feature similarity analysis and material selection, showing that Φeat captures physically-grounded structure beyond semantic grouping. These findings highlight the promise of unsupervised physical feature learning as a foundation for physics-aware perception in vision and graphics. These findings highlight the promise of unsupervised physical feature learning as a foundation for physics-aware perception in vision and graphics.
PDF102December 1, 2025