EmpiriGraph-Psy : Un jeu de données et un pipeline LLM pour l'extraction de graphes de relations empiriques à partir de résumés de psychologie

Résumé

Les benchmarks existants d'extraction de relations scientifiques ciblent principalement des domaines tels que l'informatique, où les entités sont des tâches, des méthodes, des jeux de données, des matériaux ou des métriques. Cela laisse un vide dans les domaines empiriques orientés vers les variables, comme la psychologie, où les résultats sont exprimés sous forme de relations entre construits, mesures, interventions et résultats. Nous introduisons l'extraction de graphes empiriques centrés sur les variables, une tâche consistant à mapper des résumés scientifiques en graphes typés dont les nœuds sont des variables normalisées et les arêtes représentent des relations empiriques et hiérarchiques. Pour soutenir cette tâche, nous construisons EmpiriGraph-Psy, un benchmark de 210 résumés en psychologie annotés par des annotateurs formés au domaine avec des variables normalisées, des hiérarchies de concepts, des types de relations empiriques et des états de validation. Nous évaluons les LLMs de pointe et à poids ouverts en utilisant à la fois une extraction directe et un pipeline de construction de graphes par étapes qui sépare l'extraction des variables, la normalisation, la construction des hiérarchies, la sélection des preuves, l'extraction des relations et la validation des arêtes. Le pipeline par étapes surpasse nettement l'extraction directe, la meilleure configuration atteignant un macro-F1 de 0,74. L'analyse des erreurs montre que les relations de modération et les hiérarchies de concepts restent les cas les plus difficiles, soulignant la difficulté d'extraire des affirmations empiriques d'ordre supérieur et des structures d'abstraction implicites à partir de résumés scientifiques.

English

Existing scientific relation extraction benchmarks mainly target domains such as computer science, where entities are tasks, methods, datasets, materials, or metrics. This leaves a gap in variable-oriented empirical fields such as psychology, where findings are expressed as relations among constructs, measurements, interventions, and outcomes. We introduce variable-centered empirical graph extraction, the task of mapping scientific abstracts to typed graphs whose nodes are normalized variables and whose edges represent empirical and hierarchical relations. To support this task, we construct EmpiriGraph-Psy, a benchmark of 210 psychology abstracts annotated by domain-trained annotators with normalized variables, concept hierarchies, empirical relation types, and validation states. We evaluate frontier and open-weight LLMs using both direct extraction and a staged graph-construction pipeline that separates variable extraction, normalization, hierarchy construction, evidence selection, relation extraction, and edge validation. The staged pipeline substantially outperforms direct extraction, with the best configuration achieving a macro-F1 of 0.74. Error analysis shows that moderation relations and concept hierarchies remain the most challenging cases, highlighting the difficulty of extracting higher-order empirical claims and implicit abstraction structure from scientific abstracts.