EmpiriGraph-Psy: набор данных и конвейер LLM для извлечения графов эмпирических отношений из аннотаций по психологии

Аннотация

Существующие эталоны для извлечения научных отношений в основном ориентированы на такие области, как компьютерные науки, где сущностями являются задачи, методы, наборы данных, материалы или метрики. Это оставляет пробел в эмпирических областях, ориентированных на переменные, таких как психология, где результаты выражаются в виде отношений между конструктами, измерениями, вмешательствами и исходами. Мы представляем извлечение эмпирических графов, ориентированных на переменные, — задачу отображения научных аннотаций в типизированные графы, узлы которых являются нормализованными переменными, а ребра представляют эмпирические и иерархические отношения. Для поддержки этой задачи мы создаем EmpiriGraph-Psy — эталон из 210 аннотаций по психологии, размеченных обученными в предметной области разметчиками с указанием нормализованных переменных, иерархий понятий, типов эмпирических отношений и состояний валидации. Мы оцениваем передовые LLM с открытыми весами, используя как прямое извлечение, так и поэтапный конвейер построения графов, разделяющий извлечение переменных, нормализацию, построение иерархии, выбор свидетельств, извлечение отношений и валидацию ребер. Поэтапный конвейер значительно превосходит прямое извлечение, при этом лучшая конфигурация достигает макро-F1 0,74. Анализ ошибок показывает, что отношения модерации и иерархии понятий остаются наиболее сложными случаями, что подчеркивает трудность извлечения эмпирических утверждений более высокого порядка и неявной структуры абстракции из научных аннотаций.

English

Existing scientific relation extraction benchmarks mainly target domains such as computer science, where entities are tasks, methods, datasets, materials, or metrics. This leaves a gap in variable-oriented empirical fields such as psychology, where findings are expressed as relations among constructs, measurements, interventions, and outcomes. We introduce variable-centered empirical graph extraction, the task of mapping scientific abstracts to typed graphs whose nodes are normalized variables and whose edges represent empirical and hierarchical relations. To support this task, we construct EmpiriGraph-Psy, a benchmark of 210 psychology abstracts annotated by domain-trained annotators with normalized variables, concept hierarchies, empirical relation types, and validation states. We evaluate frontier and open-weight LLMs using both direct extraction and a staged graph-construction pipeline that separates variable extraction, normalization, hierarchy construction, evidence selection, relation extraction, and edge validation. The staged pipeline substantially outperforms direct extraction, with the best configuration achieving a macro-F1 of 0.74. Error analysis shows that moderation relations and concept hierarchies remain the most challenging cases, highlighting the difficulty of extracting higher-order empirical claims and implicit abstraction structure from scientific abstracts.