Jeu de données d'événements Supernova : Interprétation de la personnalité des grands modèles de langage par l'analyse d'événements critiques
Supernova Event Dataset: Interpreting Large Language Model's Personality through Critical Event Analysis
June 13, 2025
Auteurs: Pranav Agarwal, Ioana Ciucă
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) sont de plus en plus intégrés dans les applications quotidiennes. À mesure que leur influence grandit, il devient essentiel de comprendre leur processus décisionnel et leur personnalité sous-jacente. Dans ce travail, nous interprétons la personnalité des modèles en utilisant notre ensemble de données proposé, le Supernova Event Dataset, un nouvel ensemble de données comprenant des articles variés couvrant des biographies, des événements historiques, des actualités et des découvertes scientifiques. Nous utilisons cet ensemble de données pour évaluer les LLMs sur l'extraction et le classement des événements clés à partir de textes, un défi subjectif et complexe qui nécessite un raisonnement sur un contexte à long terme et la modélisation de chaînes causales. Nous évaluons des modèles de petite taille comme Phi-4, Orca 2 et Qwen 2.5, ainsi que des modèles plus grands et plus puissants tels que Claude 3.7, Gemini 2.5 et OpenAI o3, et proposons un cadre dans lequel un autre LLM agit comme juge pour inférer la personnalité de chaque modèle en fonction de sa sélection et de sa classification des événements. Notre analyse révèle des traits de personnalité distincts : par exemple, Orca 2 démontre un raisonnement émotionnel axé sur les dynamiques interpersonnelles, tandis que Qwen 2.5 affiche un style plus stratégique et analytique. Lors de l'analyse des événements de découverte scientifique, Claude Sonnet 3.7 met l'accent sur le cadrage conceptuel, Gemini 2.5 Pro privilégie la validation empirique, et o3 favorise un raisonnement causal étape par étape. Cette analyse améliore l'interprétabilité des modèles, les rendant plus conviviaux pour une large gamme d'applications diverses.
English
Large Language Models (LLMs) are increasingly integrated into everyday
applications. As their influence grows, understanding their decision making and
underlying personality becomes essential. In this work, we interpret model
personality using our proposed Supernova Event Dataset, a novel dataset with
diverse articles spanning biographies, historical events, news, and scientific
discoveries. We use this dataset to benchmark LLMs on extracting and ranking
key events from text, a subjective and complex challenge that requires
reasoning over long-range context and modeling causal chains. We evaluate small
models like Phi-4, Orca 2, and Qwen 2.5, and large, stronger models such as
Claude 3.7, Gemini 2.5, and OpenAI o3, and propose a framework where another
LLM acts as a judge to infer each model's personality based on its selection
and classification of events. Our analysis shows distinct personality traits:
for instance, Orca 2 demonstrates emotional reasoning focusing on interpersonal
dynamics, while Qwen 2.5 displays a more strategic, analytical style. When
analyzing scientific discovery events, Claude Sonnet 3.7 emphasizes conceptual
framing, Gemini 2.5 Pro prioritizes empirical validation, and o3 favors
step-by-step causal reasoning. This analysis improves model interpretability,
making them user-friendly for a wide range of diverse applications.