로컬 스케일 등변성을 갖는 잠재 심층 평형 정규화기
Local Scale Equivariance with Latent Deep Equilibrium Canonicalizer
August 19, 2025
저자: Md Ashiqur Rahman, Chiao-An Yang, Michael N. Cheng, Lim Jun Hao, Jeremiah Jiang, Teck-Yian Lim, Raymond A. Yeh
cs.AI
초록
스케일 변이는 컴퓨터 비전에서 근본적인 도전 과제입니다. 동일한 클래스에 속하는 객체라도 크기가 다를 수 있으며, 카메라와의 거리에 따라 인지되는 크기가 더욱 달라질 수 있습니다. 이러한 변이는 객체에 국한된 현상으로, 동일한 이미지 내에서도 서로 다른 객체 크기가 다르게 변화할 수 있습니다. 이러한 스케일 변이를 효과적으로 처리하기 위해, 우리는 모델의 지역적 스케일 등변성(equivariance)을 개선하기 위한 딥 이퀄리브리엄 캐노니컬라이저(DEC)를 제안합니다. DEC는 기존 네트워크 아키텍처에 쉽게 통합될 수 있으며, 사전 훈련된 모델에도 적용 가능합니다. 특히, 경쟁력 있는 ImageNet 벤치마크에서 DEC가 ViT, DeiT, Swin, BEiT와 같은 네 가지 인기 있는 사전 훈련된 딥넷의 성능과 지역적 스케일 일관성을 모두 개선함을 보여줍니다. 우리의 코드는 https://github.com/ashiq24/local-scale-equivariance에서 확인할 수 있습니다.
English
Scale variation is a fundamental challenge in computer vision. Objects of the
same class can have different sizes, and their perceived size is further
affected by the distance from the camera. These variations are local to the
objects, i.e., different object sizes may change differently within the same
image. To effectively handle scale variations, we present a deep equilibrium
canonicalizer (DEC) to improve the local scale equivariance of a model. DEC can
be easily incorporated into existing network architectures and can be adapted
to a pre-trained model. Notably, we show that on the competitive ImageNet
benchmark, DEC improves both model performance and local scale consistency
across four popular pre-trained deep-nets, e.g., ViT, DeiT, Swin, and BEiT. Our
code is available at https://github.com/ashiq24/local-scale-equivariance.