ChatPaper.aiChatPaper

Réduction des hallucinations dans la génération de requêtes SPARQL basée sur des modèles de langage grâce à la récupération en mémoire post-génération

Reducing Hallucinations in Language Model-based SPARQL Query Generation Using Post-Generation Memory Retrieval

February 19, 2025
Auteurs: Aditya Sharma, Luis Lara, Amal Zouaq, Christopher J. Pal
cs.AI

Résumé

La capacité à générer des requêtes SPARQL à partir de questions en langage naturel est essentielle pour assurer une récupération efficace et précise des données structurées à partir de graphes de connaissances (KG). Bien que les grands modèles de langage (LLM) soient largement utilisés pour la génération de requêtes SPARQL, ils sont souvent sujets à des hallucinations et à des erreurs hors distribution lors de la production d'éléments de KG tels que les identifiants de ressource uniforme (URI) basés sur leur connaissance paramétrique interne. Cela aboutit fréquemment à un contenu qui semble plausible mais qui est factuellement incorrect, posant des défis majeurs pour leur utilisation dans des applications réelles de recherche d'information (IR). Cela a conduit à une augmentation des recherches visant à détecter et à atténuer de telles erreurs. Dans cet article, nous présentons PGMR (Post-Generation Memory Retrieval), un cadre modulaire qui intègre un module de mémoire non paramétrique pour récupérer des éléments de KG et améliorer la génération de requêtes SPARQL basée sur les LLM. Nos résultats expérimentaux indiquent que PGMR offre constamment de solides performances sur divers ensembles de données, distributions de données et LLM. Notamment, PGMR atténue significativement les hallucinations d'URI, éliminant presque le problème dans plusieurs scénarios.
English
The ability to generate SPARQL queries from natural language questions is crucial for ensuring efficient and accurate retrieval of structured data from knowledge graphs (KG). While large language models (LLMs) have been widely adopted for SPARQL query generation, they are often susceptible to hallucinations and out-of-distribution errors when producing KG elements like Uniform Resource Identifiers (URIs) based on internal parametric knowledge. This often results in content that appears plausible but is factually incorrect, posing significant challenges for their use in real-world information retrieval (IR) applications. This has led to increased research aimed at detecting and mitigating such errors. In this paper, we introduce PGMR (Post-Generation Memory Retrieval), a modular framework that incorporates a non-parametric memory module to retrieve KG elements and enhance LLM-based SPARQL query generation. Our experimental results indicate that PGMR consistently delivers strong performance across diverse datasets, data distributions, and LLMs. Notably, PGMR significantly mitigates URI hallucinations, nearly eliminating the problem in several scenarios.

Summary

AI-Generated Summary

PDF22February 20, 2025