Настраиваемая мягкая эквивариантность с гарантиями

Аннотация

Эквивариантность является фундаментальным свойством моделей компьютерного зрения, однако строгая эквивариантность редко выполняется в реальных данных, что может ограничивать производительность модели. Поэтому управление степенью эквивариантности является важной задачей. Мы предлагаем общую структуру для построения моделей с мягкой эквивариантностью путем проекции весов модели в заданное подпространство. Данный метод применим к любой предварительно обученной архитектуре и обеспечивает теоретические границы для индуцированной ошибки эквивариантности. Экспериментально мы демонстрируем эффективность нашего метода на нескольких предобученных моделях, включая ViT и ResNet, в задачах классификации изображений, семантической сегментации и прогнозирования траекторий людей. Примечательно, что наш подход улучшает производительность, одновременно снижая ошибку эквивариантности на конкурсном бенчмарке ImageNet.

English

Equivariance is a fundamental property in computer vision models, yet strict equivariance is rarely satisfied in real-world data, which can limit a model's performance. Controlling the degree of equivariance is therefore desirable. We propose a general framework for constructing soft equivariant models by projecting the model weights into a designed subspace. The method applies to any pre-trained architecture and provides theoretical bounds on the induced equivariance error. Empirically, we demonstrate the effectiveness of our method on multiple pre-trained backbones, including ViT and ResNet, across image classification, semantic segmentation, and human-trajectory prediction tasks. Notably, our approach improves the performance while simultaneously reducing equivariance error on the competitive ImageNet benchmark.

Настраиваемая мягкая эквивариантность с гарантиями

Tunable Soft Equivariance with Guarantees

Аннотация

Support