ChatPaper.aiChatPaper

Поведенческая идентификация больших языковых моделей

Behavioral Fingerprinting of Large Language Models

September 2, 2025
Авторы: Zehua Pei, Hui-Ling Zhen, Ying Zhang, Zhiyuan Yang, Xing Li, Xianzhi Yu, Mingxuan Yuan, Bei Yu
cs.AI

Аннотация

Современные эталонные тесты для крупных языковых моделей (LLM) в основном сосредоточены на метриках производительности, часто упуская из виду тонкие поведенческие характеристики, которые их отличают. В данной статье представлена новая концепция «Поведенческого отпечатка», разработанная для выхода за рамки традиционной оценки путем создания многогранного профиля внутренних когнитивных и интерактивных стилей модели. Используя тщательно подобранный набор диагностических запросов и инновационный автоматизированный процесс оценки, в котором мощная LLM выступает в роли беспристрастного судьи, мы анализируем восемнадцать моделей различных уровней возможностей. Наши результаты выявляют критическое расхождение в ландшафте LLM: хотя ключевые способности, такие как абстрактное и причинно-следственное мышление, сходятся у ведущих моделей, поведение, связанное с согласованностью, такое как угодливость и семантическая устойчивость, значительно варьируется. Мы также документируем кластеризацию кросс-модельных стандартных персонажей (ISTJ/ESTJ), которая, вероятно, отражает общие стимулы согласованности. В совокупности это свидетельствует о том, что интерактивная природа модели не является эмерджентным свойством её масштаба или вычислительной мощности, а прямым следствием специфических и сильно варьирующихся стратегий согласованности разработчиков. Наш подход предоставляет воспроизводимую и масштабируемую методологию для выявления этих глубоких поведенческих различий. Проект: https://github.com/JarvisPei/Behavioral-Fingerprinting
English
Current benchmarks for Large Language Models (LLMs) primarily focus on performance metrics, often failing to capture the nuanced behavioral characteristics that differentiate them. This paper introduces a novel ``Behavioral Fingerprinting'' framework designed to move beyond traditional evaluation by creating a multi-faceted profile of a model's intrinsic cognitive and interactive styles. Using a curated Diagnostic Prompt Suite and an innovative, automated evaluation pipeline where a powerful LLM acts as an impartial judge, we analyze eighteen models across capability tiers. Our results reveal a critical divergence in the LLM landscape: while core capabilities like abstract and causal reasoning are converging among top models, alignment-related behaviors such as sycophancy and semantic robustness vary dramatically. We further document a cross-model default persona clustering (ISTJ/ESTJ) that likely reflects common alignment incentives. Taken together, this suggests that a model's interactive nature is not an emergent property of its scale or reasoning power, but a direct consequence of specific, and highly variable, developer alignment strategies. Our framework provides a reproducible and scalable methodology for uncovering these deep behavioral differences. Project: https://github.com/JarvisPei/Behavioral-Fingerprinting
PDF53September 8, 2025