ChatPaper.aiChatPaper

Hybride Attributionsprioren für erklärbare und robuste Modelltrainingsverfahren

Hybrid Attribution Priors for Explainable and Robust Model Training

December 9, 2025
papers.authors: Zhuoran Zhang, Feng Zhang, Shangyuan Li, Yang Shi, Yuanxing Zhang, Wei Chen, Tengjiao Wang, Kam-Fai Wong
cs.AI

papers.abstract

Kleine Sprachmodelle (SLMs) werden häufig für Aufgaben eingesetzt, die geringe Latenz und schlanke Bereitstellung erfordern, insbesondere für Klassifikation. Da Interpretierbarkeit und Robustheit zunehmend an Bedeutung gewinnen, hat sich erklärungsgeführtes Lernen als effektiver Rahmen etabliert, der auf attributionsbasierter Überwachung während des Trainings basiert; jedoch bleibt die Ableitung allgemeiner und zuverlässiger Attributions-Priors eine große Herausforderung. Durch eine Analyse repräsentativer Attributionsmethoden in Klassifikationsszenarien stellen wir fest, dass diese Methoden zwar zuverlässig klassenrelevante Tokens hervorheben können, sich jedoch oft auf gemeinsame Schlüsselwörter konzentrieren, die von semantisch ähnlichen Klassen geteilt werden. Da solche Klassen bereits unter Standardtraining schwer zu unterscheiden sind, liefern diese Attributionen unzureichende diskriminative Hinweise, was ihre Fähigkeit zur Verbesserung der Modellunterscheidung begrenzt. Um diese Einschränkung zu überwinden, schlagen wir Class-Aware Attribution Prior (CAP) vor, ein neuartiges Framework zur Extraktion von Attributions-Priors, das Sprachmodelle dazu anleitet, feinkörnige Klassenunterschiede zu erfassen und salientere, diskriminativere Attributions-Priors zu erzeugen. Aufbauend auf dieser Idee führen wir weiterhin CAP Hybrid ein, das Priors von CAP mit denen bestehender Attributionstechniken kombiniert, um ein umfassenderes und ausgewogeneres Überwachungssignal zu bilden. Indem wir die Selbstattribution eines Modells mit diesen angereicherten Priors in Einklang bringen, fördert unser Ansatz das Erlernen vielfältiger, entscheidungsrelevanter Merkmale. Umfangreiche Experimente in Szenarien mit vollständigen Daten, Few-Shot-Lernen und adversariellen Angriffen demonstrieren, dass unsere Methode konsistent sowohl die Interpretierbarkeit als auch die Robustheit verbessert.
English
Small language models (SLMs) are widely used in tasks that require low latency and lightweight deployment, particularly classification. As interpretability and robustness gain increasing importance, explanation-guided learning has emerged as an effective framework by introducing attribution-based supervision during training; however, deriving general and reliable attribution priors remains a significant challenge. Through an analysis of representative attribution methods in classification settings, we find that although these methods can reliably highlight class-relevant tokens, they often focus on common keywords shared by semantically similar classes. Because such classes are already difficult to distinguish under standard training, these attributions provide insufficient discriminative cues, limiting their ability to improve model differentiation. To overcome this limitation, we propose Class-Aware Attribution Prior (CAP), a novel attribution prior extraction framework that guides language models toward capturing fine-grained class distinctions and producing more salient, discriminative attribution priors. Building on this idea, we further introduce CAP Hybrid, which combines priors from CAP with those from existing attribution techniques to form a more comprehensive and balanced supervisory signal. By aligning a model's self-attribution with these enriched priors, our approach encourages the learning of diverse, decision-relevant features. Extensive experiments in full-data, few-shot, and adversarial scenarios demonstrate that our method consistently enhances both interpretability and robustness.
PDF22December 19, 2025