Priors d'attribution hybride pour un entraînement de modèles explicable et robuste
Hybrid Attribution Priors for Explainable and Robust Model Training
December 9, 2025
papers.authors: Zhuoran Zhang, Feng Zhang, Shangyuan Li, Yang Shi, Yuanxing Zhang, Wei Chen, Tengjiao Wang, Kam-Fai Wong
cs.AI
papers.abstract
Les petits modèles de langage (SLM) sont largement utilisés dans les tâches nécessitant une faible latence et un déploiement léger, particulièrement pour la classification. Alors que l'interprétabilité et la robustesse gagnent en importance, l'apprentissage guidé par les explications est apparu comme un cadre efficace en introduisant une supervision basée sur l'attribution durant l'entraînement ; cependant, dériver des préalables d'attribution généraux et fiables reste un défi significatif. Par une analyse des méthodes d'attribution représentatives en contexte de classification, nous constatons que bien que ces méthodes puissent mettre en évidence de manière fiable les tokens pertinents pour la classe, elles se concentrent souvent sur des mots-clés communs partagés par des classes sémantiquement similaires. Parce que ces classes sont déjà difficiles à distinguer avec un entraînement standard, ces attributions fournissent des indices discriminatifs insuffisants, limitant leur capacité à améliorer la différenciation des modèles. Pour surmonter cette limitation, nous proposons Class-Aware Attribution Prior (CAP), un nouveau cadre d'extraction de préalable d'attribution qui guide les modèles de langage vers la capture de distinctions fines entre les classes et produit des préalables d'attribution plus saillants et discriminatifs. Sur cette base, nous introduisons ensuite CAP Hybrid, qui combine les préalables de CAP avec ceux des techniques d'attribution existantes pour former un signal de supervision plus complet et équilibré. En alignant l'auto-attribution d'un modèle avec ces préalables enrichis, notre approche encourage l'apprentissage de caractéristiques diverses et pertinentes pour la décision. Des expériences approfondies dans des scénarios avec données complètes, few-shot et adversariaux démontrent que notre méthode améliore constamment à la fois l'interprétabilité et la robustesse.
English
Small language models (SLMs) are widely used in tasks that require low latency and lightweight deployment, particularly classification. As interpretability and robustness gain increasing importance, explanation-guided learning has emerged as an effective framework by introducing attribution-based supervision during training; however, deriving general and reliable attribution priors remains a significant challenge. Through an analysis of representative attribution methods in classification settings, we find that although these methods can reliably highlight class-relevant tokens, they often focus on common keywords shared by semantically similar classes. Because such classes are already difficult to distinguish under standard training, these attributions provide insufficient discriminative cues, limiting their ability to improve model differentiation. To overcome this limitation, we propose Class-Aware Attribution Prior (CAP), a novel attribution prior extraction framework that guides language models toward capturing fine-grained class distinctions and producing more salient, discriminative attribution priors. Building on this idea, we further introduce CAP Hybrid, which combines priors from CAP with those from existing attribution techniques to form a more comprehensive and balanced supervisory signal. By aligning a model's self-attribution with these enriched priors, our approach encourages the learning of diverse, decision-relevant features. Extensive experiments in full-data, few-shot, and adversarial scenarios demonstrate that our method consistently enhances both interpretability and robustness.