GRS-QA -- Conjunto de Dados de Perguntas e Respostas Estruturadas com Raciocínio em Grafos
GRS-QA -- Graph Reasoning-Structured Question Answering Dataset
November 1, 2024
Autores: Anish Pahilajani, Devasha Trivedi, Jincen Shuai, Khin S. Yone, Samyak Rajesh Jain, Namyong Park, Ryan A. Rossi, Nesreen K. Ahmed, Franck Dernoncourt, Yu Wang
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) têm se destacado no questionamento e resposta multi-hop (M-QA) devido às suas habilidades avançadas de raciocínio. No entanto, o impacto das estruturas de raciocínio inerentes no desempenho de M-QA do LLM permanece incerto, em grande parte devido à ausência de conjuntos de dados de QA que forneçam estruturas de raciocínio detalhadas. Para abordar essa lacuna, introduzimos o Conjunto de Dados de Questionamento e Resposta Estruturado por Raciocínio em Grafo (GRS-QA), que inclui tanto contextos semânticos quanto estruturas de raciocínio para pares de QA. Ao contrário dos conjuntos de dados de M-QA existentes, nos quais diferentes estruturas de raciocínio estão entrelaçadas, o GRS-QA captura explicitamente caminhos de raciocínio intricados construindo grafos de raciocínio, nos quais os nós representam contextos textuais e as arestas denotam fluxos lógicos. Esses grafos de raciocínio de diferentes estruturas possibilitam uma avaliação detalhada das capacidades de raciocínio do LLM em várias estruturas de raciocínio. Nossa análise empírica revela que os LLMs se comportam de maneira diferente ao lidar com perguntas com estruturas de raciocínio variadas. Esse achado facilita a exploração de estruturas textuais em comparação com semântica.
English
Large Language Models (LLMs) have excelled in multi-hop question-answering
(M-QA) due to their advanced reasoning abilities. However, the impact of the
inherent reasoning structures on LLM M-QA performance remains unclear, largely
due to the absence of QA datasets that provide fine-grained reasoning
structures. To address this gap, we introduce the Graph Reasoning-Structured
Question Answering Dataset (GRS-QA), which includes both semantic contexts and
reasoning structures for QA pairs. Unlike existing M-QA datasets, where
different reasoning structures are entangled together, GRS-QA explicitly
captures intricate reasoning pathways by constructing reasoning graphs, where
nodes represent textual contexts and edges denote logical flows. These
reasoning graphs of different structures enable a fine-grained evaluation of
LLM reasoning capabilities across various reasoning structures. Our empirical
analysis reveals that LLMs perform differently when handling questions with
varying reasoning structures. This finding facilitates the exploration of
textual structures as compared with semantics.Summary
AI-Generated Summary