Lokale Skalenäquivarianz mit latentem Deep-Equilibrium-Kanonisierer
Local Scale Equivariance with Latent Deep Equilibrium Canonicalizer
August 19, 2025
papers.authors: Md Ashiqur Rahman, Chiao-An Yang, Michael N. Cheng, Lim Jun Hao, Jeremiah Jiang, Teck-Yian Lim, Raymond A. Yeh
cs.AI
papers.abstract
Skalenvariation ist eine grundlegende Herausforderung in der Computer Vision. Objekte derselben Klasse können unterschiedliche Größen haben, und ihre wahrgenommene Größe wird zusätzlich durch die Entfernung zur Kamera beeinflusst. Diese Variationen sind lokal zu den Objekten, d.h., unterschiedliche Objektgrößen können sich innerhalb desselben Bildes unterschiedlich verändern. Um Skalenvariationen effektiv zu bewältigen, stellen wir einen Deep Equilibrium Canonicalizer (DEC) vor, der die lokale Skalenäquivarianz eines Modells verbessert. DEC kann einfach in bestehende Netzwerkarchitekturen integriert und an ein vortrainiertes Modell angepasst werden. Bemerkenswerterweise zeigen wir, dass DEC auf dem wettbewerbsfähigen ImageNet-Benchmark sowohl die Modellleistung als auch die lokale Skalenkonsistenz bei vier beliebten vortrainierten Deep-Nets, z.B. ViT, DeiT, Swin und BEiT, verbessert. Unser Code ist verfügbar unter https://github.com/ashiq24/local-scale-equivariance.
English
Scale variation is a fundamental challenge in computer vision. Objects of the
same class can have different sizes, and their perceived size is further
affected by the distance from the camera. These variations are local to the
objects, i.e., different object sizes may change differently within the same
image. To effectively handle scale variations, we present a deep equilibrium
canonicalizer (DEC) to improve the local scale equivariance of a model. DEC can
be easily incorporated into existing network architectures and can be adapted
to a pre-trained model. Notably, we show that on the competitive ImageNet
benchmark, DEC improves both model performance and local scale consistency
across four popular pre-trained deep-nets, e.g., ViT, DeiT, Swin, and BEiT. Our
code is available at https://github.com/ashiq24/local-scale-equivariance.