大規模言語モデルの行動指紋認証
Behavioral Fingerprinting of Large Language Models
September 2, 2025
著者: Zehua Pei, Hui-Ling Zhen, Ying Zhang, Zhiyuan Yang, Xing Li, Xianzhi Yu, Mingxuan Yuan, Bei Yu
cs.AI
要旨
現在の大規模言語モデル(LLM)のベンチマークは、主にパフォーマンス指標に焦点を当てており、モデル間の微妙な行動特性を捉えることがしばしばできていない。本論文では、従来の評価を超えるために、モデルの内在的な認知スタイルとインタラクションスタイルを多面的にプロファイリングする新しい「行動フィンガープリンティング」フレームワークを提案する。厳選された診断プロンプトスイートと、強力なLLMを公平な審判として活用した革新的な自動評価パイプラインを用いて、能力階層にわたる18のモデルを分析した。その結果、LLMの状況において重要な分岐点が明らかになった:トップモデル間では抽象的推論や因果推論といった中核能力が収束している一方で、同調性や意味的堅牢性といったアライメント関連の行動は劇的に異なる。さらに、モデル間でデフォルトのパーソナリティクラスタリング(ISTJ/ESTJ)が観察され、これは共通のアライメントインセンティブを反映している可能性が高い。全体として、モデルのインタラクション特性は、その規模や推論能力から自然に生じるものではなく、特定の、そして非常に多様な開発者によるアライメント戦略の直接的な結果であることが示唆される。本フレームワークは、これらの深層的な行動の違いを明らかにするための再現性と拡張性を備えた方法論を提供する。プロジェクト:https://github.com/JarvisPei/Behavioral-Fingerprinting
English
Current benchmarks for Large Language Models (LLMs) primarily focus on
performance metrics, often failing to capture the nuanced behavioral
characteristics that differentiate them. This paper introduces a novel
``Behavioral Fingerprinting'' framework designed to move beyond traditional
evaluation by creating a multi-faceted profile of a model's intrinsic cognitive
and interactive styles. Using a curated Diagnostic Prompt Suite and an
innovative, automated evaluation pipeline where a powerful LLM acts as an
impartial judge, we analyze eighteen models across capability tiers. Our
results reveal a critical divergence in the LLM landscape: while core
capabilities like abstract and causal reasoning are converging among top
models, alignment-related behaviors such as sycophancy and semantic robustness
vary dramatically. We further document a cross-model default persona clustering
(ISTJ/ESTJ) that likely reflects common alignment incentives. Taken together,
this suggests that a model's interactive nature is not an emergent property of
its scale or reasoning power, but a direct consequence of specific, and highly
variable, developer alignment strategies. Our framework provides a reproducible
and scalable methodology for uncovering these deep behavioral differences.
Project: https://github.com/JarvisPei/Behavioral-Fingerprinting