Equivarianza Locale alla Scala con Canonizzatore a Equilibrio Profondo Latente
Local Scale Equivariance with Latent Deep Equilibrium Canonicalizer
August 19, 2025
Autori: Md Ashiqur Rahman, Chiao-An Yang, Michael N. Cheng, Lim Jun Hao, Jeremiah Jiang, Teck-Yian Lim, Raymond A. Yeh
cs.AI
Abstract
La variazione di scala è una sfida fondamentale nella visione artificiale. Oggetti della stessa classe possono avere dimensioni diverse, e la loro dimensione percepita è ulteriormente influenzata dalla distanza dalla fotocamera. Queste variazioni sono locali agli oggetti, cioè diverse dimensioni degli oggetti possono cambiare in modo diverso all'interno della stessa immagine. Per gestire efficacemente le variazioni di scala, presentiamo un canonicalizzatore di equilibrio profondo (DEC) per migliorare l'equivarianza locale della scala di un modello. DEC può essere facilmente integrato nelle architetture di rete esistenti e può essere adattato a un modello pre-addestrato. In particolare, dimostriamo che sul competitivo benchmark ImageNet, DEC migliora sia le prestazioni del modello che la coerenza locale della scala in quattro popolari reti neurali profonde pre-addestrate, ad esempio ViT, DeiT, Swin e BEiT. Il nostro codice è disponibile all'indirizzo https://github.com/ashiq24/local-scale-equivariance.
English
Scale variation is a fundamental challenge in computer vision. Objects of the
same class can have different sizes, and their perceived size is further
affected by the distance from the camera. These variations are local to the
objects, i.e., different object sizes may change differently within the same
image. To effectively handle scale variations, we present a deep equilibrium
canonicalizer (DEC) to improve the local scale equivariance of a model. DEC can
be easily incorporated into existing network architectures and can be adapted
to a pre-trained model. Notably, we show that on the competitive ImageNet
benchmark, DEC improves both model performance and local scale consistency
across four popular pre-trained deep-nets, e.g., ViT, DeiT, Swin, and BEiT. Our
code is available at https://github.com/ashiq24/local-scale-equivariance.