ChatPaper.aiChatPaper

Equivarianza Locale alla Scala con Canonizzatore a Equilibrio Profondo Latente

Local Scale Equivariance with Latent Deep Equilibrium Canonicalizer

August 19, 2025
Autori: Md Ashiqur Rahman, Chiao-An Yang, Michael N. Cheng, Lim Jun Hao, Jeremiah Jiang, Teck-Yian Lim, Raymond A. Yeh
cs.AI

Abstract

La variazione di scala è una sfida fondamentale nella visione artificiale. Oggetti della stessa classe possono avere dimensioni diverse, e la loro dimensione percepita è ulteriormente influenzata dalla distanza dalla fotocamera. Queste variazioni sono locali agli oggetti, cioè diverse dimensioni degli oggetti possono cambiare in modo diverso all'interno della stessa immagine. Per gestire efficacemente le variazioni di scala, presentiamo un canonicalizzatore di equilibrio profondo (DEC) per migliorare l'equivarianza locale della scala di un modello. DEC può essere facilmente integrato nelle architetture di rete esistenti e può essere adattato a un modello pre-addestrato. In particolare, dimostriamo che sul competitivo benchmark ImageNet, DEC migliora sia le prestazioni del modello che la coerenza locale della scala in quattro popolari reti neurali profonde pre-addestrate, ad esempio ViT, DeiT, Swin e BEiT. Il nostro codice è disponibile all'indirizzo https://github.com/ashiq24/local-scale-equivariance.
English
Scale variation is a fundamental challenge in computer vision. Objects of the same class can have different sizes, and their perceived size is further affected by the distance from the camera. These variations are local to the objects, i.e., different object sizes may change differently within the same image. To effectively handle scale variations, we present a deep equilibrium canonicalizer (DEC) to improve the local scale equivariance of a model. DEC can be easily incorporated into existing network architectures and can be adapted to a pre-trained model. Notably, we show that on the competitive ImageNet benchmark, DEC improves both model performance and local scale consistency across four popular pre-trained deep-nets, e.g., ViT, DeiT, Swin, and BEiT. Our code is available at https://github.com/ashiq24/local-scale-equivariance.
PDF44August 21, 2025