ChatPaper.aiChatPaper

Équivariance locale à l'échelle avec un Canonicaliseur à Équilibre Profond Latent

Local Scale Equivariance with Latent Deep Equilibrium Canonicalizer

August 19, 2025
papers.authors: Md Ashiqur Rahman, Chiao-An Yang, Michael N. Cheng, Lim Jun Hao, Jeremiah Jiang, Teck-Yian Lim, Raymond A. Yeh
cs.AI

papers.abstract

La variation d'échelle constitue un défi fondamental en vision par ordinateur. Les objets d'une même classe peuvent présenter des tailles différentes, et leur taille perçue est en outre influencée par leur distance par rapport à la caméra. Ces variations sont locales aux objets, c'est-à-dire que les différentes tailles d'objets peuvent évoluer de manière distincte au sein d'une même image. Pour gérer efficacement ces variations d'échelle, nous proposons un équilibreur canonique profond (DEC) afin d'améliorer l'équivariance locale d'échelle d'un modèle. DEC peut être facilement intégré dans les architectures de réseaux existantes et adapté à un modèle pré-entraîné. De manière notable, nous démontrons que sur le benchmark compétitif d'ImageNet, DEC améliore à la fois les performances du modèle et la cohérence locale d'échelle pour quatre réseaux profonds pré-entraînés populaires, tels que ViT, DeiT, Swin et BEiT. Notre code est disponible à l'adresse suivante : https://github.com/ashiq24/local-scale-equivariance.
English
Scale variation is a fundamental challenge in computer vision. Objects of the same class can have different sizes, and their perceived size is further affected by the distance from the camera. These variations are local to the objects, i.e., different object sizes may change differently within the same image. To effectively handle scale variations, we present a deep equilibrium canonicalizer (DEC) to improve the local scale equivariance of a model. DEC can be easily incorporated into existing network architectures and can be adapted to a pre-trained model. Notably, we show that on the competitive ImageNet benchmark, DEC improves both model performance and local scale consistency across four popular pre-trained deep-nets, e.g., ViT, DeiT, Swin, and BEiT. Our code is available at https://github.com/ashiq24/local-scale-equivariance.
PDF22August 21, 2025