Rendre le classificateur expressif : Analyse des invariants sémantiques dans les classificateurs
Make it SING: Analyzing Semantic Invariants in Classifiers
March 15, 2026
Auteurs: Harel Yadid, Meir Yossef Levi, Roy Betser, Guy Gilboa
cs.AI
Résumé
Tous les classificateurs, y compris les modèles de vision les plus avancés, possèdent des invariants, partiellement ancrés dans la géométrie de leurs applications linéaires. Ces invariants, qui résident dans le noyau du classificateur, induisent des ensembles équivalents d'entrées qui sont mappés vers des sorties identiques. Le contenu sémantique de ces invariants reste vague, car les approches existantes peinent à fournir des informations interprétables par un humain. Pour combler cette lacune, nous présentons l'Interprétation Sémantique de la Géométrie du Noyau (SING), une méthode qui construit des images équivalentes par rapport au réseau et attribue des interprétations sémantiques aux variations disponibles. Nous utilisons un mapping des caractéristiques du réseau vers des modèles de vision et langage multimodaux. Cela nous permet d'obtenir des descriptions en langage naturel et des exemples visuels des décalages sémantiques induits. SING peut être appliqué à une seule image, révélant des invariants locaux, ou à des ensembles d'images, permettant une large analyse statistique aux niveaux de la classe et du modèle. Par exemple, notre méthode révèle que ResNet50 laisse fuiter des attributs sémantiques pertinents dans le noyau, tandis que DinoViT, un ViT pré-entraîné avec la méthode auto-supervisée DINO, est supérieur pour maintenir la sémantique des classes à travers l'espace invariant.
English
All classifiers, including state-of-the-art vision models, possess invariants, partially rooted in the geometry of their linear mappings. These invariants, which reside in the null-space of the classifier, induce equivalent sets of inputs that map to identical outputs. The semantic content of these invariants remains vague, as existing approaches struggle to provide human-interpretable information. To address this gap, we present Semantic Interpretation of the Null-space Geometry (SING), a method that constructs equivalent images, with respect to the network, and assigns semantic interpretations to the available variations. We use a mapping from network features to multi-modal vision language models. This allows us to obtain natural language descriptions and visual examples of the induced semantic shifts. SING can be applied to a single image, uncovering local invariants, or to sets of images, allowing a breadth of statistical analysis at the class and model levels. For example, our method reveals that ResNet50 leaks relevant semantic attributes to the null space, whereas DinoViT, a ViT pretrained with self-supervised DINO, is superior in maintaining class semantics across the invariant space.