Laat het ZINGEN: Een analyse van semantische invarianten in classificatoren

Samenvatting

Alle classificatoren, inclusief state-of-the-art visionmodellen, bezitten invarianten, die deels geworteld zijn in de geometrie van hun lineaire afbeeldingen. Deze invarianten, die zich in de nulruimte van de classificator bevinden, induceren equivalente sets van invoerwaarden die naar identieke uitvoerwaarden worden afgebeeld. De semantische inhoud van deze invarianten blijft vaag, omdat bestaande benaderingen moeite hebben om voor mensen interpreteerbare informatie te verschaffen. Om dit hiaat aan te pakken, presenteren wij Semantische Interpretatie van de Nulruimte-geometrie (SING), een methode die equivalente afbeeldingen, met betrekking tot het netwerk, construeert en semantische interpretaties toekent aan de beschikbare variaties. Wij gebruiken een afbeelding van netwerkkenmerken naar multimodale vision-taalmodellen. Hierdoor kunnen wij natuurlijke-taalbeschrijvingen en visuele voorbeelden verkrijgen van de geïnduceerde semantische verschuivingen. SING kan worden toegepast op een enkele afbeelding, om lokale invarianten bloot te leggen, of op sets van afbeeldingen, wat een breed scala aan statistische analyses op klasse- en modelniveau mogelijk maakt. Onze methode laat bijvoorbeeld zien dat ResNet50 relevante semantische attributen naar de nulruimte lekt, terwijl DinoViT, een ViT vooraf getraind met zelfgesuperviseerde DINO, superieur is in het behoud van klassesemantiek over de invariante ruimte.

English

All classifiers, including state-of-the-art vision models, possess invariants, partially rooted in the geometry of their linear mappings. These invariants, which reside in the null-space of the classifier, induce equivalent sets of inputs that map to identical outputs. The semantic content of these invariants remains vague, as existing approaches struggle to provide human-interpretable information. To address this gap, we present Semantic Interpretation of the Null-space Geometry (SING), a method that constructs equivalent images, with respect to the network, and assigns semantic interpretations to the available variations. We use a mapping from network features to multi-modal vision language models. This allows us to obtain natural language descriptions and visual examples of the induced semantic shifts. SING can be applied to a single image, uncovering local invariants, or to sets of images, allowing a breadth of statistical analysis at the class and model levels. For example, our method reveals that ResNet50 leaks relevant semantic attributes to the null space, whereas DinoViT, a ViT pretrained with self-supervised DINO, is superior in maintaining class semantics across the invariant space.

Laat het ZINGEN: Een analyse van semantische invarianten in classificatoren

Make it SING: Analyzing Semantic Invariants in Classifiers

Samenvatting

Support