Dataset sull'Evento Supernova: Interpretazione della Personalità dei Modelli Linguistici di Grande Scala attraverso l'Analisi di Eventi Critici
Supernova Event Dataset: Interpreting Large Language Model's Personality through Critical Event Analysis
June 13, 2025
Autori: Pranav Agarwal, Ioana Ciucă
cs.AI
Abstract
I Large Language Model (LLM) sono sempre più integrati nelle applicazioni quotidiane. Man mano che la loro influenza cresce, diventa essenziale comprendere il loro processo decisionale e la personalità sottostante. In questo lavoro, interpretiamo la personalità del modello utilizzando il nostro Supernova Event Dataset, un nuovo dataset che comprende articoli diversificati tra biografie, eventi storici, notizie e scoperte scientifiche. Utilizziamo questo dataset per valutare le prestazioni degli LLM nell'estrazione e nella classificazione di eventi chiave da un testo, una sfida soggettiva e complessa che richiede ragionamento su contesti di lungo periodo e modellazione di catene causali. Valutiamo modelli di piccole dimensioni come Phi-4, Orca 2 e Qwen 2.5, e modelli più grandi e potenti come Claude 3.7, Gemini 2.5 e OpenAI o3, proponendo un framework in cui un altro LLM agisce come giudice per inferire la personalità di ciascun modello in base alla sua selezione e classificazione degli eventi. La nostra analisi rivela tratti di personalità distinti: ad esempio, Orca 2 dimostra un ragionamento emotivo focalizzato sulle dinamiche interpersonali, mentre Qwen 2.5 mostra uno stile più strategico e analitico. Nell'analisi degli eventi di scoperta scientifica, Claude Sonnet 3.7 enfatizza l'inquadramento concettuale, Gemini 2.5 Pro dà priorità alla validazione empirica e o3 favorisce un ragionamento causale passo-passo. Questa analisi migliora l'interpretabilità dei modelli, rendendoli più user-friendly per un'ampia gamma di applicazioni diversificate.
English
Large Language Models (LLMs) are increasingly integrated into everyday
applications. As their influence grows, understanding their decision making and
underlying personality becomes essential. In this work, we interpret model
personality using our proposed Supernova Event Dataset, a novel dataset with
diverse articles spanning biographies, historical events, news, and scientific
discoveries. We use this dataset to benchmark LLMs on extracting and ranking
key events from text, a subjective and complex challenge that requires
reasoning over long-range context and modeling causal chains. We evaluate small
models like Phi-4, Orca 2, and Qwen 2.5, and large, stronger models such as
Claude 3.7, Gemini 2.5, and OpenAI o3, and propose a framework where another
LLM acts as a judge to infer each model's personality based on its selection
and classification of events. Our analysis shows distinct personality traits:
for instance, Orca 2 demonstrates emotional reasoning focusing on interpersonal
dynamics, while Qwen 2.5 displays a more strategic, analytical style. When
analyzing scientific discovery events, Claude Sonnet 3.7 emphasizes conceptual
framing, Gemini 2.5 Pro prioritizes empirical validation, and o3 favors
step-by-step causal reasoning. This analysis improves model interpretability,
making them user-friendly for a wide range of diverse applications.