ChatPaper.aiChatPaper

설명 가능하고 강건한 모델 학습을 위한 하이브리드 귀속 사전 분포

Hybrid Attribution Priors for Explainable and Robust Model Training

December 9, 2025
저자: Zhuoran Zhang, Feng Zhang, Shangyuan Li, Yang Shi, Yuanxing Zhang, Wei Chen, Tengjiao Wang, Kam-Fai Wong
cs.AI

초록

소규모 언어 모델(SLM)은 낮은 지연 시간과 경량화된 배포가 필요한 작업, 특히 분류 작업에서 널리 사용됩니다. 해석 가능성과 강건성의 중요성이 커짐에 따라, 설명 기반 학습은 훈련 과정에 속성 기반 감독을 도입하는 효과적인 프레임워크로 부상했습니다. 그러나 일반적이고 신뢰할 수 있는 속성 사전 지식을 도출하는 것은 여전히 큰 과제로 남아 있습니다. 분류 설정에서 대표적인 속성 방법을 분석한 결과, 이러한 방법들이 클래스 관련 토큰을 신뢰성 있게 강조할 수는 있지만, 의미적으로 유사한 클래스들이 공유하는 일반적인 키워드에 주로 집중하는 경향이 있음을 발견했습니다. 이러한 클래스들은 표준 훈련 하에서도 이미 구분하기 어려우므로, 해당 속성들은 판별에 필요한 충분한 단서를 제공하지 못해 모델의 차별화 능력 향상에 한계가 있습니다. 이러한 한계를 극복하기 위해, 본 연구에서는 언어 모델이 세분화된 클래스 차이를 포착하고 더욱 두드러지며 판별력 있는 속성 사전 지식을 생성하도록 유도하는 새로운 속성 사전 지식 추출 프레임워크인 Class-Aware Attribution Prior(CAP)를 제안합니다. 이 아이디어를 바탕으로, CAP에서 도출된 사전 지식과 기존 속성 기법들의 사전 지식을 결합하여 보다 포괄적이고 균형 잡힌 감독 신호를 형성하는 CAP Hybrid를 추가로 소개합니다. 모델의 자기 속성이 이러한 향상된 사전 지식과 일치하도록 함으로써, 우리의 접근 방식은 다양하고 결정과 관련된 특징의 학습을 촉진합니다. 전체 데이터, 소수 샘플, 적대적 시나리오에서 진행된 폭넓은 실험을 통해 본 방법이 해석 가능성과 강건성을 모두 지속적으로 향상시킴을 입증했습니다.
English
Small language models (SLMs) are widely used in tasks that require low latency and lightweight deployment, particularly classification. As interpretability and robustness gain increasing importance, explanation-guided learning has emerged as an effective framework by introducing attribution-based supervision during training; however, deriving general and reliable attribution priors remains a significant challenge. Through an analysis of representative attribution methods in classification settings, we find that although these methods can reliably highlight class-relevant tokens, they often focus on common keywords shared by semantically similar classes. Because such classes are already difficult to distinguish under standard training, these attributions provide insufficient discriminative cues, limiting their ability to improve model differentiation. To overcome this limitation, we propose Class-Aware Attribution Prior (CAP), a novel attribution prior extraction framework that guides language models toward capturing fine-grained class distinctions and producing more salient, discriminative attribution priors. Building on this idea, we further introduce CAP Hybrid, which combines priors from CAP with those from existing attribution techniques to form a more comprehensive and balanced supervisory signal. By aligning a model's self-attribution with these enriched priors, our approach encourages the learning of diverse, decision-relevant features. Extensive experiments in full-data, few-shot, and adversarial scenarios demonstrate that our method consistently enhances both interpretability and robustness.
PDF22December 19, 2025