ChatPaper.aiChatPaper

Hybride Attributieprioriteiten voor Uitlegbare en Robuuste Modeltraining

Hybrid Attribution Priors for Explainable and Robust Model Training

December 9, 2025
Auteurs: Zhuoran Zhang, Feng Zhang, Shangyuan Li, Yang Shi, Yuanxing Zhang, Wei Chen, Tengjiao Wang, Kam-Fai Wong
cs.AI

Samenvatting

Kleine taalmodellen (SLM's) worden veel gebruikt voor taken die lage latentie en lichtgewicht implementatie vereisen, met name classificatie. Omdat interpreteerbaarheid en robuustheid aan belang winnen, is explanation-guided learning naar voren gekomen als een effectief raamwerk door op attributie gebaseerd toezicht tijdens de training te introduceren; het afleiden van algemene en betrouwbare attributie-priors blijft echter een grote uitdaging. Via een analyse van representatieve attributiemethoden in classificatieomgevingen stellen we vast dat hoewel deze methoden betrouwbaar klasse-relevante tokens kunnen benadrukken, ze zich vaak richten op veelvoorkomende trefwoorden die worden gedeeld door semantisch vergelijkbare klassen. Omdat dergelijke klassen onder standaardtraining al moeilijk te onderscheiden zijn, bieden deze attributies onvoldoende onderscheidende signalen, wat hun vermogen om modeldifferentiatie te verbeteren beperkt. Om deze beperking te overwinnen, stellen we Class-Aware Attribution Prior (CAP) voor, een nieuw raamwerk voor het extraheren van attributie-priors dat taalmodellen leidt naar het vastleggen van fijnmazige klasseonderscheidingen en het produceren van meer saliënte, onderscheidende attributie-priors. Voortbouwend op dit idee introduceren we verder CAP Hybrid, dat priors van CAP combineert met die van bestaande attributietechnieken om een uitgebreider en evenwichtiger toezichtsignaal te vormen. Door de zelf-attributie van een model af te stemmen op deze verrijkte priors, stimuleert onze aanpak het leren van diverse, beslissingsrelevante kenmerken. Uitgebreide experimenten in scenario's met volledige gegevens, few-shot en adversarial scenario's tonen aan dat onze methode consistent zowel de interpreteerbaarheid als de robuustheid verbetert.
English
Small language models (SLMs) are widely used in tasks that require low latency and lightweight deployment, particularly classification. As interpretability and robustness gain increasing importance, explanation-guided learning has emerged as an effective framework by introducing attribution-based supervision during training; however, deriving general and reliable attribution priors remains a significant challenge. Through an analysis of representative attribution methods in classification settings, we find that although these methods can reliably highlight class-relevant tokens, they often focus on common keywords shared by semantically similar classes. Because such classes are already difficult to distinguish under standard training, these attributions provide insufficient discriminative cues, limiting their ability to improve model differentiation. To overcome this limitation, we propose Class-Aware Attribution Prior (CAP), a novel attribution prior extraction framework that guides language models toward capturing fine-grained class distinctions and producing more salient, discriminative attribution priors. Building on this idea, we further introduce CAP Hybrid, which combines priors from CAP with those from existing attribution techniques to form a more comprehensive and balanced supervisory signal. By aligning a model's self-attribution with these enriched priors, our approach encourages the learning of diverse, decision-relevant features. Extensive experiments in full-data, few-shot, and adversarial scenarios demonstrate that our method consistently enhances both interpretability and robustness.
PDF22December 19, 2025