ChatPaper.aiChatPaper

Reduzindo Alucinações na Geração de Consultas SPARQL Baseadas em Modelos de Linguagem Utilizando Recuperação de Memória Pós-Geração

Reducing Hallucinations in Language Model-based SPARQL Query Generation Using Post-Generation Memory Retrieval

February 19, 2025
Autores: Aditya Sharma, Luis Lara, Amal Zouaq, Christopher J. Pal
cs.AI

Resumo

A capacidade de gerar consultas SPARQL a partir de perguntas em linguagem natural é crucial para garantir a recuperação eficiente e precisa de dados estruturados de grafos de conhecimento (KG). Embora os modelos de linguagem de grande escala (LLMs) tenham sido amplamente adotados para a geração de consultas SPARQL, eles frequentemente são suscetíveis a alucinações e erros fora da distribuição ao produzir elementos de KG, como Identificadores de Recursos Uniformes (URIs), com base em conhecimento paramétrico interno. Isso frequentemente resulta em conteúdo que parece plausível, mas é factualmente incorreto, apresentando desafios significativos para seu uso em aplicações de recuperação de informação (IR) do mundo real. Isso levou a um aumento nas pesquisas voltadas para detectar e mitigar tais erros. Neste artigo, apresentamos o PGMR (Post-Generation Memory Retrieval), um framework modular que incorpora um módulo de memória não paramétrico para recuperar elementos de KG e aprimorar a geração de consultas SPARQL baseada em LLMs. Nossos resultados experimentais indicam que o PGMR consistentemente oferece um desempenho robusto em diversos conjuntos de dados, distribuições de dados e LLMs. Notavelmente, o PGMR mitiga significativamente as alucinações de URIs, quase eliminando o problema em vários cenários.
English
The ability to generate SPARQL queries from natural language questions is crucial for ensuring efficient and accurate retrieval of structured data from knowledge graphs (KG). While large language models (LLMs) have been widely adopted for SPARQL query generation, they are often susceptible to hallucinations and out-of-distribution errors when producing KG elements like Uniform Resource Identifiers (URIs) based on internal parametric knowledge. This often results in content that appears plausible but is factually incorrect, posing significant challenges for their use in real-world information retrieval (IR) applications. This has led to increased research aimed at detecting and mitigating such errors. In this paper, we introduce PGMR (Post-Generation Memory Retrieval), a modular framework that incorporates a non-parametric memory module to retrieve KG elements and enhance LLM-based SPARQL query generation. Our experimental results indicate that PGMR consistently delivers strong performance across diverse datasets, data distributions, and LLMs. Notably, PGMR significantly mitigates URI hallucinations, nearly eliminating the problem in several scenarios.

Summary

AI-Generated Summary

PDF22February 20, 2025