ChatPaper.aiChatPaper

Conjunto de Dados de Eventos de Supernova: Interpretando a Personalidade de Modelos de Linguagem de Grande Escala por meio de Análise de Eventos Críticos

Supernova Event Dataset: Interpreting Large Language Model's Personality through Critical Event Analysis

June 13, 2025
Autores: Pranav Agarwal, Ioana Ciucă
cs.AI

Resumo

Modelos de Linguagem de Grande Escala (LLMs) estão sendo cada vez mais integrados em aplicações cotidianas. À medida que sua influência cresce, compreender sua tomada de decisão e a personalidade subjacente torna-se essencial. Neste trabalho, interpretamos a personalidade do modelo utilizando nosso conjunto de dados proposto, o Supernova Event Dataset, um novo conjunto de dados com artigos diversos que abrangem biografias, eventos históricos, notícias e descobertas científicas. Usamos esse conjunto de dados para avaliar LLMs na extração e classificação de eventos-chave a partir de textos, um desafio subjetivo e complexo que requer raciocínio sobre contextos de longo alcance e modelagem de cadeias causais. Avaliamos modelos pequenos como Phi-4, Orca 2 e Qwen 2.5, e modelos maiores e mais robustos como Claude 3.7, Gemini 2.5 e OpenAI o3, e propomos um framework em que outro LLM atua como juiz para inferir a personalidade de cada modelo com base em sua seleção e classificação de eventos. Nossa análise revela traços de personalidade distintos: por exemplo, Orca 2 demonstra raciocínio emocional com foco em dinâmicas interpessoais, enquanto Qwen 2.5 exibe um estilo mais estratégico e analítico. Ao analisar eventos de descobertas científicas, Claude Sonnet 3.7 enfatiza o enquadramento conceitual, Gemini 2.5 Pro prioriza a validação empírica e o3 favorece o raciocínio causal passo a passo. Essa análise melhora a interpretabilidade dos modelos, tornando-os mais amigáveis para uma ampla gama de aplicações diversas.
English
Large Language Models (LLMs) are increasingly integrated into everyday applications. As their influence grows, understanding their decision making and underlying personality becomes essential. In this work, we interpret model personality using our proposed Supernova Event Dataset, a novel dataset with diverse articles spanning biographies, historical events, news, and scientific discoveries. We use this dataset to benchmark LLMs on extracting and ranking key events from text, a subjective and complex challenge that requires reasoning over long-range context and modeling causal chains. We evaluate small models like Phi-4, Orca 2, and Qwen 2.5, and large, stronger models such as Claude 3.7, Gemini 2.5, and OpenAI o3, and propose a framework where another LLM acts as a judge to infer each model's personality based on its selection and classification of events. Our analysis shows distinct personality traits: for instance, Orca 2 demonstrates emotional reasoning focusing on interpersonal dynamics, while Qwen 2.5 displays a more strategic, analytical style. When analyzing scientific discovery events, Claude Sonnet 3.7 emphasizes conceptual framing, Gemini 2.5 Pro prioritizes empirical validation, and o3 favors step-by-step causal reasoning. This analysis improves model interpretability, making them user-friendly for a wide range of diverse applications.
PDF62June 17, 2025