ChatPaper.aiChatPaper

Supernova-Ereignis-Datensatz: Interpretation der Persönlichkeit großer Sprachmodelle durch kritische Ereignisanalyse

Supernova Event Dataset: Interpreting Large Language Model's Personality through Critical Event Analysis

June 13, 2025
Autoren: Pranav Agarwal, Ioana Ciucă
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) werden zunehmend in alltägliche Anwendungen integriert. Da ihr Einfluss wächst, wird das Verständnis ihrer Entscheidungsfindung und zugrunde liegenden Persönlichkeit immer wichtiger. In dieser Arbeit interpretieren wir die Modellpersönlichkeit mithilfe unseres vorgeschlagenen Supernova Event Datasets, einem neuartigen Datensatz mit vielfältigen Artikeln, die Biografien, historische Ereignisse, Nachrichten und wissenschaftliche Entdeckungen umfassen. Wir verwenden diesen Datensatz, um LLMs beim Extrahieren und Bewerten von Schlüsselereignissen aus Texten zu benchmarken, eine subjektive und komplexe Herausforderung, die das Schließen über langfristige Kontexte und die Modellierung von Kausalketten erfordert. Wir evaluieren kleinere Modelle wie Phi-4, Orca 2 und Qwen 2.5 sowie größere, leistungsstärkere Modelle wie Claude 3.7, Gemini 2.5 und OpenAI o3 und schlagen ein Framework vor, in dem ein weiteres LLM als Richter fungiert, um die Persönlichkeit jedes Modells basierend auf seiner Auswahl und Klassifizierung von Ereignissen abzuleiten. Unsere Analyse zeigt deutliche Persönlichkeitsmerkmale: Beispielsweise zeigt Orca 2 emotionales Denken mit Fokus auf zwischenmenschliche Dynamiken, während Qwen 2.5 einen strategischeren, analytischen Stil aufweist. Bei der Analyse von wissenschaftlichen Entdeckungsereignissen betont Claude Sonnet 3.7 konzeptuelle Rahmung, Gemini 2.5 Pro priorisiert empirische Validierung und o3 bevorzugt schrittweise kausale Argumentation. Diese Analyse verbessert die Interpretierbarkeit der Modelle und macht sie benutzerfreundlich für eine breite Palette verschiedener Anwendungen.
English
Large Language Models (LLMs) are increasingly integrated into everyday applications. As their influence grows, understanding their decision making and underlying personality becomes essential. In this work, we interpret model personality using our proposed Supernova Event Dataset, a novel dataset with diverse articles spanning biographies, historical events, news, and scientific discoveries. We use this dataset to benchmark LLMs on extracting and ranking key events from text, a subjective and complex challenge that requires reasoning over long-range context and modeling causal chains. We evaluate small models like Phi-4, Orca 2, and Qwen 2.5, and large, stronger models such as Claude 3.7, Gemini 2.5, and OpenAI o3, and propose a framework where another LLM acts as a judge to infer each model's personality based on its selection and classification of events. Our analysis shows distinct personality traits: for instance, Orca 2 demonstrates emotional reasoning focusing on interpersonal dynamics, while Qwen 2.5 displays a more strategic, analytical style. When analyzing scientific discovery events, Claude Sonnet 3.7 emphasizes conceptual framing, Gemini 2.5 Pro prioritizes empirical validation, and o3 favors step-by-step causal reasoning. This analysis improves model interpretability, making them user-friendly for a wide range of diverse applications.
PDF42June 17, 2025