Confiança e Calibração de Oráculos de Ativação para Interpretação Confiável dos Internos de Modelos de Linguagem

Resumo

Oráculos de ativação visam tornar as ativações de outros modelos legíveis para humanos, apresentando resultados promissores em comparação às técnicas de interpretabilidade de caixa branca. No entanto, a quantificação de incerteza (UQ) para as saídas em linguagem natural desses oráculos de ativação ainda é pouco estudada. Neste trabalho, investigamos 6 métodos diferentes para estimar a confiança de oráculos de ativação e avaliamos o quão bem calibrados estão seus escores de confiança. Nossos experimentos com 6.000 amostras por oráculo (variando verbalizador e prompts de contexto) revelam que a frequência do modo bootstrap é o método melhor calibrado entre os testados (ECE 5,7% vs. 25,5% para a log-probabilidade da palavra-resposta no Qwen3-8B; 10,3% vs. 13,1% no Qwen3.6-27B), e que a linha de base log-prob pode servir como um sinal de triagem rápido a uma fração do custo. O código e o treinador corrigido estão disponíveis em https://github.com/federicotorrielli/probabilistic_activation_oracles.

English

Activation oracles aim to make the activations of other models legible to humans and yield promising results compared to white-box interpretability techniques. However, uncertainty quantification (UQ) for the natural-language outputs of such activation oracles is so far understudied. Here, we investigate 6 different methods for estimating the confidence of activation oracles and evaluate how well-calibrated their confidence scores are. Our experiments on 6,000 samples per oracle (varying verbalizer and context prompts) reveal that bootstrap mode frequency is the best-calibrated method among those tested (ECE 5.7% vs. 25.5% for the answer-word log-probability on Qwen3-8B; 10.3% vs. 13.1% on Qwen3.6-27B), and that the log-prob baseline can serve as a fast triage signal at a fraction of the cost. Code and the patched trainer are available at https://github.com/federicotorrielli/probabilistic_activation_oracles.