EmpiriGraph-Psy: Um Dataset e Pipeline de LLM para Extração de Gráficos de Relações Empíricas de Resumos de Psicologia

Resumo

Benchmarks existentes de extração de relações científicas têm como foco principal domínios como ciência da computação, onde as entidades são tarefas, métodos, conjuntos de dados, materiais ou métricas. Isso deixa uma lacuna em campos empíricos orientados a variáveis, como a psicologia, onde os achados são expressos como relações entre construtos, medidas, intervenções e desfechos. Apresentamos a extração de grafos empíricos centrados em variáveis, uma tarefa que consiste em mapear resumos científicos para grafos tipados cujos nós são variáveis normalizadas e cujas arestas representam relações empíricas e hierárquicas. Para apoiar essa tarefa, construímos o EmpiriGraph-Psy, um benchmark com 210 resumos de psicologia anotados por anotadores treinados no domínio, contendo variáveis normalizadas, hierarquias de conceitos, tipos de relações empíricas e estados de validação. Avaliamos LLMs de fronteira e de pesos abertos utilizando tanto extração direta quanto um pipeline de construção de grafos em etapas que separa extração de variáveis, normalização, construção de hierarquias, seleção de evidências, extração de relações e validação de arestas. O pipeline em etapas supera substancialmente a extração direta, com a melhor configuração alcançando um macro-F1 de 0,74. A análise de erros mostra que relações de moderação e hierarquias de conceitos continuam sendo os casos mais desafiadores, destacando a dificuldade de extrair afirmações empíricas de ordem superior e estruturas de abstração implícitas a partir de resumos científicos.

English

Existing scientific relation extraction benchmarks mainly target domains such as computer science, where entities are tasks, methods, datasets, materials, or metrics. This leaves a gap in variable-oriented empirical fields such as psychology, where findings are expressed as relations among constructs, measurements, interventions, and outcomes. We introduce variable-centered empirical graph extraction, the task of mapping scientific abstracts to typed graphs whose nodes are normalized variables and whose edges represent empirical and hierarchical relations. To support this task, we construct EmpiriGraph-Psy, a benchmark of 210 psychology abstracts annotated by domain-trained annotators with normalized variables, concept hierarchies, empirical relation types, and validation states. We evaluate frontier and open-weight LLMs using both direct extraction and a staged graph-construction pipeline that separates variable extraction, normalization, hierarchy construction, evidence selection, relation extraction, and edge validation. The staged pipeline substantially outperforms direct extraction, with the best configuration achieving a macro-F1 of 0.74. Error analysis shows that moderation relations and concept hierarchies remain the most challenging cases, highlighting the difficulty of extracting higher-order empirical claims and implicit abstraction structure from scientific abstracts.