ChatPaper.aiChatPaper

Conjunto de Datos de Eventos de Supernova: Interpretación de la Personalidad de Modelos de Lenguaje a Gran Escala mediante Análisis de Eventos Críticos

Supernova Event Dataset: Interpreting Large Language Model's Personality through Critical Event Analysis

June 13, 2025
Autores: Pranav Agarwal, Ioana Ciucă
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se están integrando cada vez más en aplicaciones cotidianas. A medida que su influencia crece, comprender su toma de decisiones y su personalidad subyacente se vuelve esencial. En este trabajo, interpretamos la personalidad de los modelos utilizando nuestro conjunto de datos propuesto, el Supernova Event Dataset, un conjunto de datos novedoso que incluye artículos diversos que abarcan biografías, eventos históricos, noticias y descubrimientos científicos. Utilizamos este conjunto de datos para evaluar a los LLMs en la extracción y clasificación de eventos clave a partir de texto, un desafío subjetivo y complejo que requiere razonamiento sobre contextos de largo alcance y modelado de cadenas causales. Evaluamos modelos pequeños como Phi-4, Orca 2 y Qwen 2.5, y modelos grandes y más potentes como Claude 3.7, Gemini 2.5 y OpenAI o3, y proponemos un marco en el que otro LLM actúa como juez para inferir la personalidad de cada modelo en función de su selección y clasificación de eventos. Nuestro análisis muestra rasgos de personalidad distintivos: por ejemplo, Orca 2 demuestra un razonamiento emocional centrado en dinámicas interpersonales, mientras que Qwen 2.5 muestra un estilo más estratégico y analítico. Al analizar eventos de descubrimientos científicos, Claude Sonnet 3.7 enfatiza el encuadre conceptual, Gemini 2.5 Pro prioriza la validación empírica y o3 favorece el razonamiento causal paso a paso. Este análisis mejora la interpretabilidad de los modelos, haciéndolos más amigables para una amplia gama de aplicaciones diversas.
English
Large Language Models (LLMs) are increasingly integrated into everyday applications. As their influence grows, understanding their decision making and underlying personality becomes essential. In this work, we interpret model personality using our proposed Supernova Event Dataset, a novel dataset with diverse articles spanning biographies, historical events, news, and scientific discoveries. We use this dataset to benchmark LLMs on extracting and ranking key events from text, a subjective and complex challenge that requires reasoning over long-range context and modeling causal chains. We evaluate small models like Phi-4, Orca 2, and Qwen 2.5, and large, stronger models such as Claude 3.7, Gemini 2.5, and OpenAI o3, and propose a framework where another LLM acts as a judge to infer each model's personality based on its selection and classification of events. Our analysis shows distinct personality traits: for instance, Orca 2 demonstrates emotional reasoning focusing on interpersonal dynamics, while Qwen 2.5 displays a more strategic, analytical style. When analyzing scientific discovery events, Claude Sonnet 3.7 emphasizes conceptual framing, Gemini 2.5 Pro prioritizes empirical validation, and o3 favors step-by-step causal reasoning. This analysis improves model interpretability, making them user-friendly for a wide range of diverse applications.
PDF42June 17, 2025