EmpiriGraph-Psy: Ein Datensatz und eine LLM-Pipeline zur Extraktion empirischer Beziehungsgraphen aus psychologischen Abstracts

Zusammenfassung

Bestehende wissenschaftliche Relationsextraktions-Benchmarks konzentrieren sich hauptsächlich auf Domänen wie die Informatik, in denen Entitäten Aufgaben, Methoden, Datensätze, Materialien oder Metriken sind. Dies hinterlässt eine Lücke in variablenorientierten empirischen Feldern wie der Psychologie, in denen Ergebnisse als Beziehungen zwischen Konstrukten, Messungen, Interventionen und Ergebnissen ausgedrückt werden. Wir führen die variablenzentrierte empirische Graphextraktion ein – die Aufgabe, wissenschaftliche Abstracts in typisierte Graphen zu überführen, deren Knoten normalisierte Variablen sind und deren Kanten empirische und hierarchische Beziehungen darstellen. Zur Unterstützung dieser Aufgabe konstruieren wir EmpiriGraph-Psy, einen Benchmark bestehend aus 210 psychologischen Abstracts, die von domänengeschulten Annotatoren mit normalisierten Variablen, Konzepthierarchien, empirischen Beziehungstypen und Validierungszuständen annotiert wurden. Wir evaluieren Grenz- und Open-Weight-LLMs sowohl mittels direkter Extraktion als auch mittels einer stufenweisen Graphenkonstruktionspipeline, die Variablenextraktion, Normalisierung, Hierarchieerstellung, Evidenzauswahl, Relationsextraktion und Kantenvalidierung trennt. Die stufenweise Pipeline übertrifft die direkte Extraktion deutlich, wobei die beste Konfiguration einen Makro-F1-Wert von 0,74 erreicht. Die Fehleranalyse zeigt, dass Moderationsbeziehungen und Konzepthierarchien die schwierigsten Fälle bleiben, was die Herausforderung verdeutlicht, empirische Aussagen höherer Ordnung und implizite Abstraktionsstrukturen aus wissenschaftlichen Abstracts zu extrahieren.

English

Existing scientific relation extraction benchmarks mainly target domains such as computer science, where entities are tasks, methods, datasets, materials, or metrics. This leaves a gap in variable-oriented empirical fields such as psychology, where findings are expressed as relations among constructs, measurements, interventions, and outcomes. We introduce variable-centered empirical graph extraction, the task of mapping scientific abstracts to typed graphs whose nodes are normalized variables and whose edges represent empirical and hierarchical relations. To support this task, we construct EmpiriGraph-Psy, a benchmark of 210 psychology abstracts annotated by domain-trained annotators with normalized variables, concept hierarchies, empirical relation types, and validation states. We evaluate frontier and open-weight LLMs using both direct extraction and a staged graph-construction pipeline that separates variable extraction, normalization, hierarchy construction, evidence selection, relation extraction, and edge validation. The staged pipeline substantially outperforms direct extraction, with the best configuration achieving a macro-F1 of 0.74. Error analysis shows that moderation relations and concept hierarchies remain the most challenging cases, highlighting the difficulty of extracting higher-order empirical claims and implicit abstraction structure from scientific abstracts.