¿Dónde surge la señal de autoría en los modelos de lenguaje basados en codificadores?

Resumen

Los modelos de atribución de autoría ajustados con el mismo codificador preentrenado, datos y función de pérdida pueden variar hasta cuatro veces en rendimiento dependiendo únicamente de su mecanismo de puntuación. Utilizamos herramientas de interpretabilidad mecanicista para explicar esta brecha. Características estilísticas como la longitud de las palabras, la densidad de puntuación y la frecuencia de palabras funcionales están igualmente disponibles en todas las capas de cada modelo, incluso en un codificador de control estándar, por lo que la brecha no proviene de la calidad de la representación. En cambio, la intervención causal muestra que el puntuador determina dónde el codificador consolida la señal de autoría. La agrupación promedio fuerza la consolidación hacia las capas tempranas o medias, mientras que la interacción tardía la pospone a capas posteriores. Además, derivamos esta diferencia de la estructura del gradiente de cada puntuador, y la dinámica de entrenamiento revela trayectorias de aprendizaje distintas que se derivan de esa diferencia.

English

Authorship attribution models fine-tuned with the same pretrained encoder, data, and loss can differ four-fold in performance depending only on their scoring mechanism. We use mechanistic interpretability tools to explain this gap. Stylistic features such as word length, punctuation density, and function-word frequency are equally available at every layer in every model, including in an off-the-shelf control encoder, hence the gap not coming from representation quality. Instead, causal intervention shows that the scorer determines where the encoder consolidates authorship signal. Mean pooling forces consolidation by early to mid layers, while late interaction defers it to later layers. We further derive this difference from the gradient structure of each scorer, and training dynamics reveal distinct learning trajectories that follow from that difference.