Wo tritt das Autorschaftssignal in Encoder-basierten Sprachmodellen auf?

Zusammenfassung

Autorschaftsattributionsmodelle, die mit demselben vortrainierten Encoder, denselben Daten und derselben Verlustfunktion feinabgestimmt wurden, können sich in ihrer Leistung um das Vierfache unterscheiden, allein abhängig von ihrem Bewertungsmechanismus. Wir verwenden Werkzeuge der mechanistischen Interpretierbarkeit, um diese Diskrepanz zu erklären. Stilistische Merkmale wie Wortlänge, Interpunktionsdichte und Funktionswortfrequenz sind in jeder Schicht jedes Modells gleichermaßen verfügbar, einschließlich in einem handelsüblichen Kontroll-Encoder, sodass die Diskrepanz nicht auf die Repräsentationsqualität zurückzuführen ist. Stattdessen zeigt die kausale Intervention, dass der Bewerter bestimmt, wo der Encoder das Autorschaftssignal konsolidiert. Mittelwert-Pooling erzwingt die Konsolidierung in frühen bis mittleren Schichten, während späte Interaktion sie auf spätere Schichten verschiebt. Wir leiten diesen Unterschied ferner aus der Gradientenstruktur jedes Bewerters ab, und die Trainingsdynamiken zeigen unterschiedliche Lernverläufe, die aus diesem Unterschied resultieren.

English

Authorship attribution models fine-tuned with the same pretrained encoder, data, and loss can differ four-fold in performance depending only on their scoring mechanism. We use mechanistic interpretability tools to explain this gap. Stylistic features such as word length, punctuation density, and function-word frequency are equally available at every layer in every model, including in an off-the-shelf control encoder, hence the gap not coming from representation quality. Instead, causal intervention shows that the scorer determines where the encoder consolidates authorship signal. Mean pooling forces consolidation by early to mid layers, while late interaction defers it to later layers. We further derive this difference from the gradient structure of each scorer, and training dynamics reveal distinct learning trajectories that follow from that difference.