Reduzindo Alucinações na Geração de Consultas SPARQL Baseadas em Modelos de Linguagem Utilizando Recuperação de Memória Pós-Geração
Reducing Hallucinations in Language Model-based SPARQL Query Generation Using Post-Generation Memory Retrieval
February 19, 2025
Autores: Aditya Sharma, Luis Lara, Amal Zouaq, Christopher J. Pal
cs.AI
Resumo
A capacidade de gerar consultas SPARQL a partir de perguntas em linguagem natural é crucial para garantir a recuperação eficiente e precisa de dados estruturados de grafos de conhecimento (KG). Embora os modelos de linguagem de grande escala (LLMs) tenham sido amplamente adotados para a geração de consultas SPARQL, eles frequentemente são suscetíveis a alucinações e erros fora da distribuição ao produzir elementos de KG, como Identificadores de Recursos Uniformes (URIs), com base em conhecimento paramétrico interno. Isso frequentemente resulta em conteúdo que parece plausível, mas é factualmente incorreto, apresentando desafios significativos para seu uso em aplicações de recuperação de informação (IR) do mundo real. Isso levou a um aumento nas pesquisas voltadas para detectar e mitigar tais erros. Neste artigo, apresentamos o PGMR (Post-Generation Memory Retrieval), um framework modular que incorpora um módulo de memória não paramétrico para recuperar elementos de KG e aprimorar a geração de consultas SPARQL baseada em LLMs. Nossos resultados experimentais indicam que o PGMR consistentemente oferece um desempenho robusto em diversos conjuntos de dados, distribuições de dados e LLMs. Notavelmente, o PGMR mitiga significativamente as alucinações de URIs, quase eliminando o problema em vários cenários.
English
The ability to generate SPARQL queries from natural language questions is
crucial for ensuring efficient and accurate retrieval of structured data from
knowledge graphs (KG). While large language models (LLMs) have been widely
adopted for SPARQL query generation, they are often susceptible to
hallucinations and out-of-distribution errors when producing KG elements like
Uniform Resource Identifiers (URIs) based on internal parametric knowledge.
This often results in content that appears plausible but is factually
incorrect, posing significant challenges for their use in real-world
information retrieval (IR) applications. This has led to increased research
aimed at detecting and mitigating such errors. In this paper, we introduce PGMR
(Post-Generation Memory Retrieval), a modular framework that incorporates a
non-parametric memory module to retrieve KG elements and enhance LLM-based
SPARQL query generation. Our experimental results indicate that PGMR
consistently delivers strong performance across diverse datasets, data
distributions, and LLMs. Notably, PGMR significantly mitigates URI
hallucinations, nearly eliminating the problem in several scenarios.Summary
AI-Generated Summary