ChatPaper.aiChatPaper

Гибридные априорные распределения для атрибуции в задачах объяснимого и устойчивого обучения моделей

Hybrid Attribution Priors for Explainable and Robust Model Training

December 9, 2025
Авторы: Zhuoran Zhang, Feng Zhang, Shangyuan Li, Yang Shi, Yuanxing Zhang, Wei Chen, Tengjiao Wang, Kam-Fai Wong
cs.AI

Аннотация

Малые языковые модели (SLM) широко применяются в задачах, требующих низкой задержки и облегченного развертывания, особенно в классификации. Поскольку интерпретируемость и устойчивость приобретают все большее значение, обучение с использованием объяснений стало эффективной парадигмой за счет введения атрибуционного контроля в процессе обучения; однако получение общих и надежных атрибуционных априори остается серьезной проблемой. Анализ репрезентативных методов атрибуции в задачах классификации показывает, что хотя эти методы могут достоверно выделять токены, релевантные классу, они часто фокусируются на общих ключевых словах, разделяемых семантически схожими классами. Поскольку такие классы уже сложно различить при стандартном обучении, эти атрибуции предоставляют недостаточно дискриминативных сигналов, ограничивая их способность улучшать дифференциацию модели. Для преодоления этого ограничения мы предлагаем Class-Aware Attribution Prior (CAP) — новую систему извлечения атрибуционных априори, которая направляет языковые модели на захват тонких межклассовых различий и генерацию более значимых дискриминативных априори. Развивая эту идею, мы дополнительно представляем CAP Hybrid, комбинирующий априори из CAP с априори существующих атрибуционных методов для формирования более полного и сбалансированного контрольного сигнала. Согласовывая самоатрибуцию модели с этими обогащенными априори, наш подход стимулирует изучение разнообразных признаков, релевантных для принятия решений. Многочисленные эксперименты в сценариях с полными данными, малым количеством примеров и в условиях атак демонстрируют, что наш метод последовательно улучшает как интерпретируемость, так и устойчивость.
English
Small language models (SLMs) are widely used in tasks that require low latency and lightweight deployment, particularly classification. As interpretability and robustness gain increasing importance, explanation-guided learning has emerged as an effective framework by introducing attribution-based supervision during training; however, deriving general and reliable attribution priors remains a significant challenge. Through an analysis of representative attribution methods in classification settings, we find that although these methods can reliably highlight class-relevant tokens, they often focus on common keywords shared by semantically similar classes. Because such classes are already difficult to distinguish under standard training, these attributions provide insufficient discriminative cues, limiting their ability to improve model differentiation. To overcome this limitation, we propose Class-Aware Attribution Prior (CAP), a novel attribution prior extraction framework that guides language models toward capturing fine-grained class distinctions and producing more salient, discriminative attribution priors. Building on this idea, we further introduce CAP Hybrid, which combines priors from CAP with those from existing attribution techniques to form a more comprehensive and balanced supervisory signal. By aligning a model's self-attribution with these enriched priors, our approach encourages the learning of diverse, decision-relevant features. Extensive experiments in full-data, few-shot, and adversarial scenarios demonstrate that our method consistently enhances both interpretability and robustness.
PDF22December 19, 2025