Équivariance douce ajustable avec garanties

Résumé

L'équivariance est une propriété fondamentale dans les modèles de vision par ordinateur, pourtant l'équivariance stricte est rarement satisfaite dans les données réelles, ce qui peut limiter les performances d'un modèle. Contrôler le degré d'équivariance est donc souhaitable. Nous proposons un cadre général pour construire des modèles à équivariance douce en projetant les poids du modèle dans un sous-espace conçu. La méthode s'applique à toute architecture pré-entraînée et fournit des bornes théoriques sur l'erreur d'équivariance induite. Empiriquement, nous démontrons l'efficacité de notre méthode sur plusieurs modèles de base pré-entraînés, incluant ViT et ResNet, à travers des tâches de classification d'images, de segmentation sémantique et de prédiction de trajectoires humaines. Notamment, notre approche améliore les performances tout en réduisant simultanément l'erreur d'équivariance sur le benchmark compétitif ImageNet.

English

Equivariance is a fundamental property in computer vision models, yet strict equivariance is rarely satisfied in real-world data, which can limit a model's performance. Controlling the degree of equivariance is therefore desirable. We propose a general framework for constructing soft equivariant models by projecting the model weights into a designed subspace. The method applies to any pre-trained architecture and provides theoretical bounds on the induced equivariance error. Empirically, we demonstrate the effectiveness of our method on multiple pre-trained backbones, including ViT and ResNet, across image classification, semantic segmentation, and human-trajectory prediction tasks. Notably, our approach improves the performance while simultaneously reducing equivariance error on the competitive ImageNet benchmark.

Équivariance douce ajustable avec garanties

Tunable Soft Equivariance with Guarantees

Résumé

Support