ChatPaper.aiChatPaper

Priors Híbridos de Atribución para un Entrenamiento de Modelos Explicable y Robusto

Hybrid Attribution Priors for Explainable and Robust Model Training

December 9, 2025
Autores: Zhuoran Zhang, Feng Zhang, Shangyuan Li, Yang Shi, Yuanxing Zhang, Wei Chen, Tengjiao Wang, Kam-Fai Wong
cs.AI

Resumen

Los modelos lingüísticos pequeños (SLM, por sus siglas en inglés) se utilizan ampliamente en tareas que requieren baja latencia y una implementación ligera, particularmente en clasificación. A medida que la interpretabilidad y la robustez ganan importancia creciente, el aprendizaje guiado por explicaciones ha surgido como un marco efectivo al introducir supervisión basada en atribución durante el entrenamiento; sin embargo, derivar *priors* de atribución generales y confiables sigue siendo un desafío significativo. Mediante un análisis de métodos de atribución representativos en entornos de clasificación, encontramos que, aunque estos métodos pueden resaltar de manera confiable los *tokens* relevantes para la clase, a menudo se centran en palabras clave comunes compartidas por clases semánticamente similares. Dado que dichas clases ya son difíciles de distinguir bajo un entrenamiento estándar, estas atribuciones proporcionan señales discriminatorias insuficientes, limitando su capacidad para mejorar la diferenciación del modelo. Para superar esta limitación, proponemos *Class-Aware Attribution Prior* (CAP), un novedoso marco de extracción de *priors* de atribución que guía a los modelos lingüísticos hacia la captura de distinciones de clase de grano fino y la producción de *priors* de atribución más salientes y discriminatorios. Sobre esta base, introducimos además CAP Híbrido, que combina los *priors* de CAP con los de técnicas de atribución existentes para formar una señal de supervisión más completa y equilibrada. Al alinear la auto-atribución de un modelo con estos *priors* enriquecidos, nuestro enfoque fomenta el aprendizaje de características diversas y relevantes para la decisión. Experimentos exhaustivos en escenarios de datos completos, *few-shot* y adversarios demuestran que nuestro método mejora consistentemente tanto la interpretabilidad como la robustez.
English
Small language models (SLMs) are widely used in tasks that require low latency and lightweight deployment, particularly classification. As interpretability and robustness gain increasing importance, explanation-guided learning has emerged as an effective framework by introducing attribution-based supervision during training; however, deriving general and reliable attribution priors remains a significant challenge. Through an analysis of representative attribution methods in classification settings, we find that although these methods can reliably highlight class-relevant tokens, they often focus on common keywords shared by semantically similar classes. Because such classes are already difficult to distinguish under standard training, these attributions provide insufficient discriminative cues, limiting their ability to improve model differentiation. To overcome this limitation, we propose Class-Aware Attribution Prior (CAP), a novel attribution prior extraction framework that guides language models toward capturing fine-grained class distinctions and producing more salient, discriminative attribution priors. Building on this idea, we further introduce CAP Hybrid, which combines priors from CAP with those from existing attribution techniques to form a more comprehensive and balanced supervisory signal. By aligning a model's self-attribution with these enriched priors, our approach encourages the learning of diverse, decision-relevant features. Extensive experiments in full-data, few-shot, and adversarial scenarios demonstrate that our method consistently enhances both interpretability and robustness.
PDF22December 19, 2025