Уверенность и калибровка оракулов активации для надежной интерпретации внутреннего устройства языковых моделей

Аннотация

Активационные оракулы направлены на то, чтобы сделать активации других моделей понятными для человека, и демонстрируют многообещающие результаты по сравнению с методами интерпретируемости «белого ящика». Однако оценка неопределенности (UQ) для выходных данных на естественном языке таких активационных оракулов до сих пор мало изучена. В данной работе мы исследуем 6 различных методов оценки уверенности активационных оракулов и оцениваем, насколько хорошо откалиброваны их показатели уверенности. Наши эксперименты на 6 000 образцов для каждого оракула (с варьированием вербализатора и контекстных подсказок) показывают, что частота бутстрап-моды является наилучшим откалиброванным методом среди протестированных (ECE 5,7% против 25,5% для лог-вероятности слова-ответа на Qwen3-8B; 10,3% против 13,1% на Qwen3.6-27B), и что базовый уровень лог-вероятности может служить быстрым сигналом сортировки при доле затрат. Код и модифицированный тренер доступны по адресу https://github.com/federicotorrielli/probabilistic_activation_oracles.

English

Activation oracles aim to make the activations of other models legible to humans and yield promising results compared to white-box interpretability techniques. However, uncertainty quantification (UQ) for the natural-language outputs of such activation oracles is so far understudied. Here, we investigate 6 different methods for estimating the confidence of activation oracles and evaluate how well-calibrated their confidence scores are. Our experiments on 6,000 samples per oracle (varying verbalizer and context prompts) reveal that bootstrap mode frequency is the best-calibrated method among those tested (ECE 5.7% vs. 25.5% for the answer-word log-probability on Qwen3-8B; 10.3% vs. 13.1% on Qwen3.6-27B), and that the log-prob baseline can serve as a fast triage signal at a fraction of the cost. Code and the patched trainer are available at https://github.com/federicotorrielli/probabilistic_activation_oracles.