ChatPaper.aiChatPaper

Φeat: Representación de Características con Base Física

Φeat: Physically-Grounded Feature Representation

November 14, 2025
Autores: Giuseppe Vecchio, Adrien Kaiser, Rouffet Romain, Rosalie Martin, Elena Garces, Tamy Boubekeur
cs.AI

Resumen

Los modelos fundacionales han surgido como arquitecturas eficaces para numerosas tareas de visión por computador. Sin embargo, las características auto-supervisadas actuales entrelazan la semántica de alto nivel con factores físicos de bajo nivel, como la geometría y la iluminación, lo que dificulta su uso en tareas que requieren un razonamiento físico explícito. En este artículo, presentamos Φeat, una novedosa arquitectura visual basada en principios físicos que fomenta una representación sensible a la identidad del material, incluyendo claves de reflectancia y mesoestructura geométrica. Nuestra idea clave consiste en emplear una estrategia de pre-entrenamiento que contrasta recortes espaciales y aumentaciones físicas de un mismo material bajo distintas formas y condiciones de iluminación. Si bien datos similares se han utilizado en tareas supervisadas avanzadas como la descomposición intrínseca o la estimación de materiales, demostramos que una estrategia de entrenamiento puramente auto-supervisada, sin etiquetas explícitas, ya proporciona un fuerte antecedente para tareas que requieren características robustas e invariantes a factores físicos externos. Evaluamos las representaciones aprendidas mediante análisis de similitud de características y selección de materiales, mostrando que Φeat captura una estructura basada en la física que va más allá de la agrupación semántica. Estos resultados destacan la promesa del aprendizaje no supervisado de características físicas como base para la percepción consciente de la física en visión y gráficos por computador.
English
Foundation models have emerged as effective backbones for many vision tasks. However, current self-supervised features entangle high-level semantics with low-level physical factors, such as geometry and illumination, hindering their use in tasks requiring explicit physical reasoning. In this paper, we introduce Φeat, a novel physically-grounded visual backbone that encourages a representation sensitive to material identity, including reflectance cues and geometric mesostructure. Our key idea is to employ a pretraining strategy that contrasts spatial crops and physical augmentations of the same material under varying shapes and lighting conditions. While similar data have been used in high-end supervised tasks such as intrinsic decomposition or material estimation, we demonstrate that a pure self-supervised training strategy, without explicit labels, already provides a strong prior for tasks requiring robust features invariant to external physical factors. We evaluate the learned representations through feature similarity analysis and material selection, showing that Φeat captures physically-grounded structure beyond semantic grouping. These findings highlight the promise of unsupervised physical feature learning as a foundation for physics-aware perception in vision and graphics. These findings highlight the promise of unsupervised physical feature learning as a foundation for physics-aware perception in vision and graphics.
PDF102December 1, 2025