ChatPaper.aiChatPaper

エンピリグラフ-サイ: 心理学アブストラクトからの実証関係グラフ抽出のためのデータセットとLLMパイプライン

EmpiriGraph-Psy: A Dataset and LLM Pipeline for Extracting Empirical Relation Graphs from Psychology Abstracts

June 6, 2026
著者: Danqin Zhao, Yicun Liu, Xingwei Tan, Thomas T. Hills
cs.AI

要旨

既存の科学関係抽出ベンチマークは主にコンピュータサイエンスなどの分野を対象としており、そこでのエンティティはタスク、手法、データセット、材料、評価指標などである。そのため、心理学のような変数指向の実証的分野にはギャップが存在する。心理学では、知見は構成概念、測定、介入、結果の間の関係として表現される。我々は、変数中心の実証グラフ抽出を導入する。これは、科学論文のアブストラクトを、ノードが正規化された変数、エッジが実証的関係と階層的関係を表す型付きグラフにマッピングするタスクである。このタスクを支援するため、我々はEmpiriGraph-Psyを構築した。これは、分野訓練を受けたアノテーターによって、正規化された変数、概念階層、実証関係タイプ、検証状態が注釈付けされた210件の心理学アブストラクトからなるベンチマークである。我々は、最先端およびオープンウェイトのLLMを、直接抽出と、変数抽出、正規化、階層構築、エビデンス選択、関係抽出、エッジ検証を分離した段階的グラフ構築パイプラインの両方を用いて評価した。段階的パイプラインは直接抽出を大きく上回り、最良の構成ではマクロF1が0.74に達した。エラー分析により、調整関係と概念階層が依然として最も困難なケースであることが示され、科学アブストラクトから高次の実証的主張や暗黙の抽象化構造を抽出することの難しさが浮き彫りになった。
English
Existing scientific relation extraction benchmarks mainly target domains such as computer science, where entities are tasks, methods, datasets, materials, or metrics. This leaves a gap in variable-oriented empirical fields such as psychology, where findings are expressed as relations among constructs, measurements, interventions, and outcomes. We introduce variable-centered empirical graph extraction, the task of mapping scientific abstracts to typed graphs whose nodes are normalized variables and whose edges represent empirical and hierarchical relations. To support this task, we construct EmpiriGraph-Psy, a benchmark of 210 psychology abstracts annotated by domain-trained annotators with normalized variables, concept hierarchies, empirical relation types, and validation states. We evaluate frontier and open-weight LLMs using both direct extraction and a staged graph-construction pipeline that separates variable extraction, normalization, hierarchy construction, evidence selection, relation extraction, and edge validation. The staged pipeline substantially outperforms direct extraction, with the best configuration achieving a macro-F1 of 0.74. Error analysis shows that moderation relations and concept hierarchies remain the most challenging cases, highlighting the difficulty of extracting higher-order empirical claims and implicit abstraction structure from scientific abstracts.