Vertrouwen en kalibratie van activeringsorakels voor betrouwbare interpretatie van de interne werking van taalmodellen

Samenvatting

Activeringsorakels beogen de activaties van andere modellen leesbaar te maken voor mensen en leveren veelbelovende resultaten op in vergelijking met white-box-interpreteerbaarheidstechnieken. De onzekerheidskwantificatie (UQ) van de natuurlijke-taaloutputs van dergelijke activeringsorakels is echter tot nu toe onderbelicht. In dit artikel onderzoeken we 6 verschillende methoden voor het schatten van het vertrouwen van activeringsorakels en evalueren we hoe goed gekalibreerd hun vertrouwensscores zijn. Onze experimenten op 6.000 steekproeven per orakel (met variërende verbalisator en contextprompts) tonen aan dat de bootstrap-modusfrequentie de best gekalibreerde methode is onder de geteste methoden (ECE 5,7% vs. 25,5% voor de antwoordwoord-logwaarschijnlijkheid op Qwen3-8B; 10,3% vs. 13,1% op Qwen3.6-27B), en dat de logprob-baseline kan dienen als een snel triagesignaal tegen een fractie van de kosten. Code en de gepatchte trainer zijn beschikbaar op https://github.com/federicotorrielli/probabilistic_activation_oracles.

English

Activation oracles aim to make the activations of other models legible to humans and yield promising results compared to white-box interpretability techniques. However, uncertainty quantification (UQ) for the natural-language outputs of such activation oracles is so far understudied. Here, we investigate 6 different methods for estimating the confidence of activation oracles and evaluate how well-calibrated their confidence scores are. Our experiments on 6,000 samples per oracle (varying verbalizer and context prompts) reveal that bootstrap mode frequency is the best-calibrated method among those tested (ECE 5.7% vs. 25.5% for the answer-word log-probability on Qwen3-8B; 10.3% vs. 13.1% on Qwen3.6-27B), and that the log-prob baseline can serve as a fast triage signal at a fraction of the cost. Code and the patched trainer are available at https://github.com/federicotorrielli/probabilistic_activation_oracles.