EmpiriGraph-Psy: Un conjunto de datos y un pipeline de LLM para la extracción de gráficos de relaciones empíricas a partir de resúmenes de psicología

Resumen

Los benchmarks existentes de extracción de relaciones científicas se centran principalmente en dominios como las ciencias computacionales, donde las entidades son tareas, métodos, conjuntos de datos, materiales o métricas. Esto deja un vacío en campos empíricos orientados a variables, como la psicología, donde los hallazgos se expresan como relaciones entre constructos, mediciones, intervenciones y resultados. Introducimos la extracción de grafos empíricos centrados en variables, una tarea que consiste en mapear resúmenes científicos a grafos tipados cuyos nodos son variables normalizadas y cuyas aristas representan relaciones empíricas y jerárquicas. Para respaldar esta tarea, construimos EmpiriGraph-Psy, un benchmark de 210 resúmenes de psicología anotados por anotadores entrenados en el dominio con variables normalizadas, jerarquías de conceptos, tipos de relaciones empíricas y estados de validación. Evaluamos modelos LLM de frontera y de peso abierto utilizando tanto la extracción directa como un pipeline de construcción de grafos por etapas que separa la extracción de variables, la normalización, la construcción de jerarquías, la selección de evidencia, la extracción de relaciones y la validación de aristas. El pipeline por etapas supera sustancialmente a la extracción directa, con la mejor configuración alcanzando un F1 macro de 0.74. El análisis de errores muestra que las relaciones de moderación y las jerarquías de conceptos siguen siendo los casos más desafiantes, lo que resalta la dificultad de extraer afirmaciones empíricas de orden superior y estructura de abstracción implícita a partir de resúmenes científicos.

English

Existing scientific relation extraction benchmarks mainly target domains such as computer science, where entities are tasks, methods, datasets, materials, or metrics. This leaves a gap in variable-oriented empirical fields such as psychology, where findings are expressed as relations among constructs, measurements, interventions, and outcomes. We introduce variable-centered empirical graph extraction, the task of mapping scientific abstracts to typed graphs whose nodes are normalized variables and whose edges represent empirical and hierarchical relations. To support this task, we construct EmpiriGraph-Psy, a benchmark of 210 psychology abstracts annotated by domain-trained annotators with normalized variables, concept hierarchies, empirical relation types, and validation states. We evaluate frontier and open-weight LLMs using both direct extraction and a staged graph-construction pipeline that separates variable extraction, normalization, hierarchy construction, evidence selection, relation extraction, and edge validation. The staged pipeline substantially outperforms direct extraction, with the best configuration achieving a macro-F1 of 0.74. Error analysis shows that moderation relations and concept hierarchies remain the most challenging cases, highlighting the difficulty of extracting higher-order empirical claims and implicit abstraction structure from scientific abstracts.