Заставьте это петь: анализ семантических инвариантов в классификаторах

Аннотация

Все классификаторы, включая современные модели компьютерного зрения, обладают инвариантами, частично обусловленными геометрией их линейных отображений. Эти инварианты, находящиеся в нуль-пространстве классификатора, порождают эквивалентные множества входных данных, которые отображаются на идентичные выходы. Семантическое содержание этих инвариантов остается неясным, поскольку существующие подходы не способны предоставить информацию, интерпретируемую человеком. Для устранения этого пробела мы представляем метод Семантической Интерпретации Геометрии Нуль-пространства (SING), который строит эквивалентные относительно сети изображения и присваивает семантические интерпретации доступным вариациям. Мы используем отображение из признаков сети в мультимодальные языковые модели зрения. Это позволяет нам получать описания на естественном языке и визуальные примеры индуцированных семантических сдвигов. SING может быть применен к отдельному изображению для выявления локальных инвариантов или к наборам изображений, что позволяет проводить широкий статистический анализ на уровне классов и моделей. Например, наш метод показывает, что ResNet50 допускает утечку релевантных семантических атрибутов в нуль-пространство, в то время как DinoViT — Vision Transformer, предобученный с помощью самообучаемого метода DINO, — превосходно сохраняет семантику классов в инвариантном пространстве.

English

All classifiers, including state-of-the-art vision models, possess invariants, partially rooted in the geometry of their linear mappings. These invariants, which reside in the null-space of the classifier, induce equivalent sets of inputs that map to identical outputs. The semantic content of these invariants remains vague, as existing approaches struggle to provide human-interpretable information. To address this gap, we present Semantic Interpretation of the Null-space Geometry (SING), a method that constructs equivalent images, with respect to the network, and assigns semantic interpretations to the available variations. We use a mapping from network features to multi-modal vision language models. This allows us to obtain natural language descriptions and visual examples of the induced semantic shifts. SING can be applied to a single image, uncovering local invariants, or to sets of images, allowing a breadth of statistical analysis at the class and model levels. For example, our method reveals that ResNet50 leaks relevant semantic attributes to the null space, whereas DinoViT, a ViT pretrained with self-supervised DINO, is superior in maintaining class semantics across the invariant space.

Заставьте это петь: анализ семантических инвариантов в классификаторах

Make it SING: Analyzing Semantic Invariants in Classifiers

Аннотация

Support