ChatPaper.aiChatPaper

Priorità di Attribuzione Ibride per l'Addestramento di Modelli Spiegabili e Robusti

Hybrid Attribution Priors for Explainable and Robust Model Training

December 9, 2025
Autori: Zhuoran Zhang, Feng Zhang, Shangyuan Li, Yang Shi, Yuanxing Zhang, Wei Chen, Tengjiao Wang, Kam-Fai Wong
cs.AI

Abstract

I modelli linguistici di piccole dimensioni (SLM) sono ampiamente utilizzati in compiti che richiedono bassa latenza e distribuzione leggera, in particolare per la classificazione. Con l'aumentare dell'importanza dell'interpretabilità e della robustezza, l'apprendimento guidato dalle spiegazioni è emerso come una cornice efficace introducendo una supervisione basata sull'attribuzione durante l'addestramento; tuttavia, derivare prior di attribuzione generali e affidabili rimane una sfida significativa. Attraverso un'analisi dei metodi di attribuzione rappresentativi in contesti di classificazione, scopriamo che sebbene questi metodi possano evidenziare in modo affidabile i token rilevanti per la classe, spesso si concentrano su parole chiave comuni condivise da classi semanticamente simili. Poiché tali classi sono già difficili da distinguere con l'addestramento standard, queste attribuzioni forniscono indizi discriminatori insufficienti, limitando la loro capacità di migliorare la differenziazione del modello. Per superare questa limitazione, proponiamo Class-Aware Attribution Prior (CAP), una nuova cornice per l'estrazione di prior di attribuzione che guida i modelli linguistici verso la cattura di distinzioni fini tra le classi e la produzione di prior di attribuzione più salienti e discriminatori. Basandoci su questa idea, introduciamo ulteriormente CAP Hybrid, che combina i prior di CAP con quelli delle tecniche di attribuzione esistenti per formare un segnale di supervisione più completo e bilanciato. Allineando l'auto-attribuzione di un modello con questi prior arricchiti, il nostro approccio incoraggia l'apprendimento di caratteristiche diverse e rilevanti per la decisione. Esperimenti estensivi in scenari con dati completi, few-shot e avversari dimostrano che il nostro metodo migliora costantemente sia l'interpretabilità che la robustezza.
English
Small language models (SLMs) are widely used in tasks that require low latency and lightweight deployment, particularly classification. As interpretability and robustness gain increasing importance, explanation-guided learning has emerged as an effective framework by introducing attribution-based supervision during training; however, deriving general and reliable attribution priors remains a significant challenge. Through an analysis of representative attribution methods in classification settings, we find that although these methods can reliably highlight class-relevant tokens, they often focus on common keywords shared by semantically similar classes. Because such classes are already difficult to distinguish under standard training, these attributions provide insufficient discriminative cues, limiting their ability to improve model differentiation. To overcome this limitation, we propose Class-Aware Attribution Prior (CAP), a novel attribution prior extraction framework that guides language models toward capturing fine-grained class distinctions and producing more salient, discriminative attribution priors. Building on this idea, we further introduce CAP Hybrid, which combines priors from CAP with those from existing attribution techniques to form a more comprehensive and balanced supervisory signal. By aligning a model's self-attribution with these enriched priors, our approach encourages the learning of diverse, decision-relevant features. Extensive experiments in full-data, few-shot, and adversarial scenarios demonstrate that our method consistently enhances both interpretability and robustness.
PDF22December 19, 2025