超新星イベントデータセット:重大イベント分析による大規模言語モデルの人格解釈
Supernova Event Dataset: Interpreting Large Language Model's Personality through Critical Event Analysis
June 13, 2025
著者: Pranav Agarwal, Ioana Ciucă
cs.AI
要旨
大規模言語モデル(LLMs)は、日常的なアプリケーションにますます統合されつつある。その影響力が拡大するにつれ、それらの意思決定と根底にあるパーソナリティを理解することが不可欠となっている。本研究では、私たちが提案するSupernova Event Datasetを用いてモデルのパーソナリティを解釈する。このデータセットは、伝記、歴史的事件、ニュース、科学的発見など多岐にわたる記事を含む新しいデータセットである。このデータセットを使用して、LLMsがテキストから主要なイベントを抽出し、ランク付けする能力をベンチマークする。これは、長期的な文脈を推論し、因果関係をモデル化する必要がある主観的で複雑な課題である。Phi-4、Orca 2、Qwen 2.5などの小型モデルと、Claude 3.7、Gemini 2.5、OpenAI o3などの大型で強力なモデルを評価し、別のLLMが裁判官として機能し、各モデルのイベントの選択と分類に基づいてそのパーソナリティを推論するフレームワークを提案する。私たちの分析は、明確なパーソナリティ特性を示している。例えば、Orca 2は対人関係に焦点を当てた感情的な推論を示し、Qwen 2.5はより戦略的で分析的なスタイルを示す。科学的発見のイベントを分析する際、Claude Sonnet 3.7は概念的枠組みを強調し、Gemini 2.5 Proは実証的検証を優先し、o3は段階的な因果推論を好む。この分析はモデルの解釈可能性を向上させ、多様なアプリケーションにおいてユーザーフレンドリーなものとする。
English
Large Language Models (LLMs) are increasingly integrated into everyday
applications. As their influence grows, understanding their decision making and
underlying personality becomes essential. In this work, we interpret model
personality using our proposed Supernova Event Dataset, a novel dataset with
diverse articles spanning biographies, historical events, news, and scientific
discoveries. We use this dataset to benchmark LLMs on extracting and ranking
key events from text, a subjective and complex challenge that requires
reasoning over long-range context and modeling causal chains. We evaluate small
models like Phi-4, Orca 2, and Qwen 2.5, and large, stronger models such as
Claude 3.7, Gemini 2.5, and OpenAI o3, and propose a framework where another
LLM acts as a judge to infer each model's personality based on its selection
and classification of events. Our analysis shows distinct personality traits:
for instance, Orca 2 demonstrates emotional reasoning focusing on interpersonal
dynamics, while Qwen 2.5 displays a more strategic, analytical style. When
analyzing scientific discovery events, Claude Sonnet 3.7 emphasizes conceptual
framing, Gemini 2.5 Pro prioritizes empirical validation, and o3 favors
step-by-step causal reasoning. This analysis improves model interpretability,
making them user-friendly for a wide range of diverse applications.