Empreinte comportementale des grands modèles de langage
Behavioral Fingerprinting of Large Language Models
September 2, 2025
papers.authors: Zehua Pei, Hui-Ling Zhen, Ying Zhang, Zhiyuan Yang, Xing Li, Xianzhi Yu, Mingxuan Yuan, Bei Yu
cs.AI
papers.abstract
Les benchmarks actuels pour les modèles de langage de grande taille (LLMs) se concentrent principalement sur les métriques de performance, omettant souvent de capturer les caractéristiques comportementales nuancées qui les différencient. Cet article introduit un nouveau cadre de « Empreinte Comportementale » conçu pour aller au-delà de l'évaluation traditionnelle en créant un profil multidimensionnel des styles cognitifs et interactifs intrinsèques d'un modèle. En utilisant une suite de prompts diagnostiques soigneusement sélectionnée et un pipeline d'évaluation automatisé innovant où un LLM puissant agit comme un juge impartial, nous analysons dix-huit modèles à travers différents niveaux de capacités. Nos résultats révèlent une divergence critique dans le paysage des LLMs : alors que les capacités fondamentales comme le raisonnement abstrait et causal convergent parmi les meilleurs modèles, les comportements liés à l'alignement, tels que la flagornerie et la robustesse sémantique, varient considérablement. Nous documentons également un regroupement de personnalités par défaut (ISTJ/ESTJ) entre les modèles, qui reflète probablement des incitations communes en matière d'alignement. Pris ensemble, cela suggère que la nature interactive d'un modèle n'est pas une propriété émergente de son échelle ou de sa puissance de raisonnement, mais une conséquence directe de stratégies d'alignement spécifiques et hautement variables des développeurs. Notre cadre fournit une méthodologie reproductible et évolutive pour révéler ces différences comportementales profondes. Projet : https://github.com/JarvisPei/Behavioral-Fingerprinting
English
Current benchmarks for Large Language Models (LLMs) primarily focus on
performance metrics, often failing to capture the nuanced behavioral
characteristics that differentiate them. This paper introduces a novel
``Behavioral Fingerprinting'' framework designed to move beyond traditional
evaluation by creating a multi-faceted profile of a model's intrinsic cognitive
and interactive styles. Using a curated Diagnostic Prompt Suite and an
innovative, automated evaluation pipeline where a powerful LLM acts as an
impartial judge, we analyze eighteen models across capability tiers. Our
results reveal a critical divergence in the LLM landscape: while core
capabilities like abstract and causal reasoning are converging among top
models, alignment-related behaviors such as sycophancy and semantic robustness
vary dramatically. We further document a cross-model default persona clustering
(ISTJ/ESTJ) that likely reflects common alignment incentives. Taken together,
this suggests that a model's interactive nature is not an emergent property of
its scale or reasoning power, but a direct consequence of specific, and highly
variable, developer alignment strategies. Our framework provides a reproducible
and scalable methodology for uncovering these deep behavioral differences.
Project: https://github.com/JarvisPei/Behavioral-Fingerprinting