Prévios de Atribuição Híbrida para Treinamento de Modelos Explicáveis e Robustos

Resumo

Os modelos de linguagem pequenos (SLMs) são amplamente utilizados em tarefas que exigem baixa latência e implantação leve, particularmente em classificação. À medida que a interpretabilidade e a robustez ganham importância crescente, a aprendizagem guiada por explicações emergiu como uma estrutura eficaz, introduzindo supervisão baseada em atribuição durante o treinamento; no entanto, derivar prévios de atribuição gerais e confiáveis permanece um desafio significativo. Através da análise de métodos de atribuição representativos em contextos de classificação, descobrimos que, embora esses métodos possam destacar de forma confiável tokens relevantes para a classe, eles frequentemente se concentram em palavras-chave comuns compartilhadas por classes semanticamente similares. Como essas classes já são difíceis de distinguir sob treinamento padrão, essas atribuições fornecem pistas discriminativas insuficientes, limitando sua capacidade de melhorar a diferenciação do modelo. Para superar essa limitação, propomos o Prévio de Atribuição Consciente da Classe (CAP), uma nova estrutura de extração de prévio de atribuição que orienta os modelos de linguagem a capturar distinções refinadas entre classes e a produzir prévios de atribuição mais salientes e discriminativos. Com base nessa ideia, introduzimos ainda o CAP Híbrido, que combina prévios do CAP com os de técnicas de atribuição existentes para formar um sinal de supervisão mais abrangente e equilibrado. Ao alinhar a autoatribuição de um modelo com esses prévios enriquecidos, nossa abordagem incentiva a aprendizagem de características diversas e relevantes para a decisão. Experimentos extensos em cenários de dados completos, *few-shot* e adversariais demonstram que nosso método melhora consistentemente tanto a interpretabilidade quanto a robustez.

English

Small language models (SLMs) are widely used in tasks that require low latency and lightweight deployment, particularly classification. As interpretability and robustness gain increasing importance, explanation-guided learning has emerged as an effective framework by introducing attribution-based supervision during training; however, deriving general and reliable attribution priors remains a significant challenge. Through an analysis of representative attribution methods in classification settings, we find that although these methods can reliably highlight class-relevant tokens, they often focus on common keywords shared by semantically similar classes. Because such classes are already difficult to distinguish under standard training, these attributions provide insufficient discriminative cues, limiting their ability to improve model differentiation. To overcome this limitation, we propose Class-Aware Attribution Prior (CAP), a novel attribution prior extraction framework that guides language models toward capturing fine-grained class distinctions and producing more salient, discriminative attribution priors. Building on this idea, we further introduce CAP Hybrid, which combines priors from CAP with those from existing attribution techniques to form a more comprehensive and balanced supervisory signal. By aligning a model's self-attribution with these enriched priors, our approach encourages the learning of diverse, decision-relevant features. Extensive experiments in full-data, few-shot, and adversarial scenarios demonstrate that our method consistently enhances both interpretability and robustness.

Prévios de Atribuição Híbrida para Treinamento de Modelos Explicáveis e Robustos

Hybrid Attribution Priors for Explainable and Robust Model Training

Resumo

Support