Où le signal d'auteur émerge-t-il dans les modèles de langage basés sur des encodeurs ?

Résumé

Les modèles d'attribution d'auteur affinés avec le même encodeur pré-entraîné, les mêmes données et la même fonction de perte peuvent présenter une différence de performance quadruple selon uniquement leur mécanisme de scoring. Nous utilisons des outils d'interprétabilité mécaniste pour expliquer cet écart. Les caractéristiques stylistiques telles que la longueur des mots, la densité de ponctuation et la fréquence des mots-outils sont également disponibles à chaque couche dans chaque modèle, y compris dans un encodeur de contrôle standard, d'où le fait que l'écart ne provienne pas de la qualité de la représentation. Au contraire, l'intervention causale montre que le scoreur détermine où l'encodeur consolide le signal d'auteur. Le pooling moyen force la consolidation dans les couches précoces à intermédiaires, tandis que l'interaction tardive la reporte aux couches ultérieures. Nous dérivons en outre cette différence de la structure de gradient de chaque scoreur, et la dynamique d'entraînement révèle des trajectoires d'apprentissage distinctes découlant de cette différence.

English

Authorship attribution models fine-tuned with the same pretrained encoder, data, and loss can differ four-fold in performance depending only on their scoring mechanism. We use mechanistic interpretability tools to explain this gap. Stylistic features such as word length, punctuation density, and function-word frequency are equally available at every layer in every model, including in an off-the-shelf control encoder, hence the gap not coming from representation quality. Instead, causal intervention shows that the scorer determines where the encoder consolidates authorship signal. Mean pooling forces consolidation by early to mid layers, while late interaction defers it to later layers. We further derive this difference from the gradient structure of each scorer, and training dynamics reveal distinct learning trajectories that follow from that difference.