ChatPaper.aiChatPaper

Lokale Skalenäquivarianz mit latentem Deep-Equilibrium-Kanonisierer

Local Scale Equivariance with Latent Deep Equilibrium Canonicalizer

August 19, 2025
papers.authors: Md Ashiqur Rahman, Chiao-An Yang, Michael N. Cheng, Lim Jun Hao, Jeremiah Jiang, Teck-Yian Lim, Raymond A. Yeh
cs.AI

papers.abstract

Skalenvariation ist eine grundlegende Herausforderung in der Computer Vision. Objekte derselben Klasse können unterschiedliche Größen haben, und ihre wahrgenommene Größe wird zusätzlich durch die Entfernung zur Kamera beeinflusst. Diese Variationen sind lokal zu den Objekten, d.h., unterschiedliche Objektgrößen können sich innerhalb desselben Bildes unterschiedlich verändern. Um Skalenvariationen effektiv zu bewältigen, stellen wir einen Deep Equilibrium Canonicalizer (DEC) vor, der die lokale Skalenäquivarianz eines Modells verbessert. DEC kann einfach in bestehende Netzwerkarchitekturen integriert und an ein vortrainiertes Modell angepasst werden. Bemerkenswerterweise zeigen wir, dass DEC auf dem wettbewerbsfähigen ImageNet-Benchmark sowohl die Modellleistung als auch die lokale Skalenkonsistenz bei vier beliebten vortrainierten Deep-Nets, z.B. ViT, DeiT, Swin und BEiT, verbessert. Unser Code ist verfügbar unter https://github.com/ashiq24/local-scale-equivariance.
English
Scale variation is a fundamental challenge in computer vision. Objects of the same class can have different sizes, and their perceived size is further affected by the distance from the camera. These variations are local to the objects, i.e., different object sizes may change differently within the same image. To effectively handle scale variations, we present a deep equilibrium canonicalizer (DEC) to improve the local scale equivariance of a model. DEC can be easily incorporated into existing network architectures and can be adapted to a pre-trained model. Notably, we show that on the competitive ImageNet benchmark, DEC improves both model performance and local scale consistency across four popular pre-trained deep-nets, e.g., ViT, DeiT, Swin, and BEiT. Our code is available at https://github.com/ashiq24/local-scale-equivariance.
PDF22August 21, 2025