Riduzione delle Allucinazioni nella Generazione di Query SPARQL basata su Modelli Linguistici Utilizzando il Recupero della Memoria Post-Generazione
Reducing Hallucinations in Language Model-based SPARQL Query Generation Using Post-Generation Memory Retrieval
February 19, 2025
Autori: Aditya Sharma, Luis Lara, Amal Zouaq, Christopher J. Pal
cs.AI
Abstract
La capacità di generare query SPARQL da domande in linguaggio naturale è fondamentale per garantire un recupero efficiente e accurato di dati strutturati da grafi di conoscenza (KG). Sebbene i modelli linguistici di grandi dimensioni (LLM) siano stati ampiamente adottati per la generazione di query SPARQL, sono spesso suscettibili a allucinazioni e errori fuori distribuzione quando producono elementi di KG come gli Uniform Resource Identifier (URI) basati sulla conoscenza parametrica interna. Ciò spesso si traduce in contenuti che appaiono plausibili ma che sono fattualmente errati, ponendo sfide significative per il loro utilizzo in applicazioni reali di recupero delle informazioni (IR). Questo ha portato a un aumento della ricerca mirata a rilevare e mitigare tali errori. In questo articolo, introduciamo PGMR (Post-Generation Memory Retrieval), un framework modulare che incorpora un modulo di memoria non parametrica per recuperare elementi di KG e migliorare la generazione di query SPARQL basata su LLM. I nostri risultati sperimentali indicano che PGMR fornisce costantemente prestazioni solide su diversi dataset, distribuzioni di dati e LLM. In particolare, PGMR mitiga significativamente le allucinazioni di URI, quasi eliminando il problema in diversi scenari.
English
The ability to generate SPARQL queries from natural language questions is
crucial for ensuring efficient and accurate retrieval of structured data from
knowledge graphs (KG). While large language models (LLMs) have been widely
adopted for SPARQL query generation, they are often susceptible to
hallucinations and out-of-distribution errors when producing KG elements like
Uniform Resource Identifiers (URIs) based on internal parametric knowledge.
This often results in content that appears plausible but is factually
incorrect, posing significant challenges for their use in real-world
information retrieval (IR) applications. This has led to increased research
aimed at detecting and mitigating such errors. In this paper, we introduce PGMR
(Post-Generation Memory Retrieval), a modular framework that incorporates a
non-parametric memory module to retrieve KG elements and enhance LLM-based
SPARQL query generation. Our experimental results indicate that PGMR
consistently delivers strong performance across diverse datasets, data
distributions, and LLMs. Notably, PGMR significantly mitigates URI
hallucinations, nearly eliminating the problem in several scenarios.Summary
AI-Generated Summary