Konfidenz und Kalibrierung von Aktivierungsorakeln für die zuverlässige Interpretation von Sprachmodell-Interna

Zusammenfassung

Aktivierungsorakel zielen darauf ab, die Aktivierungen anderer Modelle für Menschen lesbar zu machen und liefern vielversprechende Ergebnisse im Vergleich zu White-Box-Interpretierbarkeitstechniken. Allerdings ist die Unsicherheitsquantifizierung (UQ) für die natürlichsprachlichen Ausgaben solcher Aktivierungsorakel bisher wenig erforscht. Hier untersuchen wir 6 verschiedene Methoden zur Schätzung der Konfidenz von Aktivierungsorakeln und bewerten, wie gut kalibriert ihre Konfidenzwerte sind. Unsere Experimente mit 6.000 Stichproben pro Orakel (variierender Verbalizer und Kontext-Prompts) zeigen, dass die Bootstrap-Modushäufigkeit die am besten kalibrierte Methode unter den getesteten ist (ECE 5,7% vs. 25,5% für die Antwort-Wort-Log-Wahrscheinlichkeit auf Qwen3-8B; 10,3% vs. 13,1% auf Qwen3.6-27B) und dass die Log-Prob-Baseline als schnelles Triage-Signal zu einem Bruchteil der Kosten dienen kann. Code und der gepatchte Trainer sind verfügbar unter https://github.com/federicotorrielli/probabilistic_activation_oracles.

English

Activation oracles aim to make the activations of other models legible to humans and yield promising results compared to white-box interpretability techniques. However, uncertainty quantification (UQ) for the natural-language outputs of such activation oracles is so far understudied. Here, we investigate 6 different methods for estimating the confidence of activation oracles and evaluate how well-calibrated their confidence scores are. Our experiments on 6,000 samples per oracle (varying verbalizer and context prompts) reveal that bootstrap mode frequency is the best-calibrated method among those tested (ECE 5.7% vs. 25.5% for the answer-word log-probability on Qwen3-8B; 10.3% vs. 13.1% on Qwen3.6-27B), and that the log-prob baseline can serve as a fast triage signal at a fraction of the cost. Code and the patched trainer are available at https://github.com/federicotorrielli/probabilistic_activation_oracles.