説明可能かつロバストなモデル訓練のためのハイブリッド帰属事前分布
Hybrid Attribution Priors for Explainable and Robust Model Training
December 9, 2025
著者: Zhuoran Zhang, Feng Zhang, Shangyuan Li, Yang Shi, Yuanxing Zhang, Wei Chen, Tengjiao Wang, Kam-Fai Wong
cs.AI
要旨
小規模言語モデル(SLM)は、低遅延かつ軽量な展開が求められる分類タスクを中心に広く利用されている。解釈可能性と頑健性の重要性が高まる中、説明性に基づく指導学習は、訓練時に帰属説明に基づく監督を導入する効果的な枠組みとして登場した。しかし、一般的で信頼性の高い帰属説明の事前分布を導出することは依然として大きな課題である。分類設定における代表的な帰属説明手法を分析した結果、これらの手法はクラス関連トークンを確実に強調できるものの、意味的に類似したクラス間で共通するキーワードに注目しがちであることが分かった。このようなクラスは標準的な訓練下では元来識別が困難であるため、これらの帰属説明は識別の手がかりとして不十分であり、モデルの識別能力向上効果が限定的となる。この課題を克服するため、本研究ではClass-Aware Attribution Prior(CAP)を提案する。これは、言語モデルが細粒度のクラス区別を捉え、より顕著で識別性の高い帰属説明の事前分布を生成するよう導く新しい枠組みである。この考え方を発展させ、CAPの事前分布と既存の帰属説明手法の事前分布を組み合わせ、より包括的でバランスの取れた監督信号を形成するCAP Hybridをさらに提案する。モデルの自己帰属説明をこれらの強化された事前分布に整合させることで、多様で意思決定に関連する特徴の学習を促進する。全データ、少数ショット、敵対的シナリオにおける広範な実験により、本手法が解釈可能性と頑健性の両方を一貫して向上させることを実証する。
English
Small language models (SLMs) are widely used in tasks that require low latency and lightweight deployment, particularly classification. As interpretability and robustness gain increasing importance, explanation-guided learning has emerged as an effective framework by introducing attribution-based supervision during training; however, deriving general and reliable attribution priors remains a significant challenge. Through an analysis of representative attribution methods in classification settings, we find that although these methods can reliably highlight class-relevant tokens, they often focus on common keywords shared by semantically similar classes. Because such classes are already difficult to distinguish under standard training, these attributions provide insufficient discriminative cues, limiting their ability to improve model differentiation. To overcome this limitation, we propose Class-Aware Attribution Prior (CAP), a novel attribution prior extraction framework that guides language models toward capturing fine-grained class distinctions and producing more salient, discriminative attribution priors. Building on this idea, we further introduce CAP Hybrid, which combines priors from CAP with those from existing attribution techniques to form a more comprehensive and balanced supervisory signal. By aligning a model's self-attribution with these enriched priors, our approach encourages the learning of diverse, decision-relevant features. Extensive experiments in full-data, few-shot, and adversarial scenarios demonstrate that our method consistently enhances both interpretability and robustness.