ChatPaper.aiChatPaper

Reducción de alucinaciones en la generación de consultas SPARQL basadas en modelos de lenguaje mediante recuperación de memoria posgeneración

Reducing Hallucinations in Language Model-based SPARQL Query Generation Using Post-Generation Memory Retrieval

February 19, 2025
Autores: Aditya Sharma, Luis Lara, Amal Zouaq, Christopher J. Pal
cs.AI

Resumen

La capacidad de generar consultas SPARQL a partir de preguntas en lenguaje natural es crucial para garantizar una recuperación eficiente y precisa de datos estructurados de grafos de conocimiento (KG). Si bien los modelos de lenguaje de gran escala (LLMs) se han adoptado ampliamente para la generación de consultas SPARQL, a menudo son propensos a alucinaciones y errores fuera de distribución al producir elementos del KG, como identificadores uniformes de recursos (URIs), basándose en su conocimiento paramétrico interno. Esto frecuentemente da como resultado contenido que parece plausible pero que es factualmente incorrecto, lo que plantea desafíos significativos para su uso en aplicaciones reales de recuperación de información (IR). Esto ha llevado a un aumento en la investigación dirigida a detectar y mitigar tales errores. En este artículo, presentamos PGMR (Post-Generation Memory Retrieval), un marco modular que incorpora un módulo de memoria no paramétrico para recuperar elementos del KG y mejorar la generación de consultas SPARQL basadas en LLMs. Nuestros resultados experimentales indican que PGMR ofrece consistentemente un rendimiento sólido en diversos conjuntos de datos, distribuciones de datos y LLMs. Notablemente, PGMR mitiga significativamente las alucinaciones de URIs, casi eliminando el problema en varios escenarios.
English
The ability to generate SPARQL queries from natural language questions is crucial for ensuring efficient and accurate retrieval of structured data from knowledge graphs (KG). While large language models (LLMs) have been widely adopted for SPARQL query generation, they are often susceptible to hallucinations and out-of-distribution errors when producing KG elements like Uniform Resource Identifiers (URIs) based on internal parametric knowledge. This often results in content that appears plausible but is factually incorrect, posing significant challenges for their use in real-world information retrieval (IR) applications. This has led to increased research aimed at detecting and mitigating such errors. In this paper, we introduce PGMR (Post-Generation Memory Retrieval), a modular framework that incorporates a non-parametric memory module to retrieve KG elements and enhance LLM-based SPARQL query generation. Our experimental results indicate that PGMR consistently delivers strong performance across diverse datasets, data distributions, and LLMs. Notably, PGMR significantly mitigates URI hallucinations, nearly eliminating the problem in several scenarios.

Summary

AI-Generated Summary

PDF22February 20, 2025