분류기에서 의미론적 불변량 분석하기
Make it SING: Analyzing Semantic Invariants in Classifiers
March 15, 2026
저자: Harel Yadid, Meir Yossef Levi, Roy Betser, Guy Gilboa
cs.AI
초록
모든 분류기,包括 최첨단 비전 모델은 선형 매핑의 기하학적 특성에 부분적으로 기반한 불변량을 보유합니다. 이러한 분류기의 영공간에 존재하는 불변량은 동일한 출력으로 매핑되는 등가 입력 집합을 유도합니다. 기존 방법론으로는 인간이 해석 가능한 정보를 제공하기 어려워, 이러한 불변량의 의미론적 내용은 여전히 모호한 상태입니다. 이러한 격차를 해결하기 위해 우리는 네트워크 관점에서 등가 이미지를 구성하고 가능한 변동에 의미론적 해석을 부여하는 SING(Semantic Interpretation of the Null-space Geometry) 방법을 제안합니다. 우리는 네트워크 특징에서 다중 모달 비전 언어 모델로의 매핑을 활용하여, 유도된 의미론적 변화에 대한 자연어 설명과 시각적 예시를 얻습니다. SING은 단일 이미지에 적용하여 지역적 불변량을 발견하거나, 이미지 집합에 적용하여 클래스 및 모델 수준에서 광범위한 통계 분석을 가능하게 합니다. 예를 들어, 우리 방법은 ResNet50이 관련 의미론적 속성을 영공간으로 누출하는 반면, 자기 지도 방식의 DINO로 사전 훈련된 ViT인 DinoViT는 불변 공간 전체에 걸쳐 클래스 의미론을 유지하는 데 우수함을 보여줍니다.
English
All classifiers, including state-of-the-art vision models, possess invariants, partially rooted in the geometry of their linear mappings. These invariants, which reside in the null-space of the classifier, induce equivalent sets of inputs that map to identical outputs. The semantic content of these invariants remains vague, as existing approaches struggle to provide human-interpretable information. To address this gap, we present Semantic Interpretation of the Null-space Geometry (SING), a method that constructs equivalent images, with respect to the network, and assigns semantic interpretations to the available variations. We use a mapping from network features to multi-modal vision language models. This allows us to obtain natural language descriptions and visual examples of the induced semantic shifts. SING can be applied to a single image, uncovering local invariants, or to sets of images, allowing a breadth of statistical analysis at the class and model levels. For example, our method reveals that ResNet50 leaks relevant semantic attributes to the null space, whereas DinoViT, a ViT pretrained with self-supervised DINO, is superior in maintaining class semantics across the invariant space.