Reduzierung von Halluzinationen bei der SPARQL-Abfragegenerierung auf Basis von Sprachmodellen durch post-generative Speicherrückgewinnung
Reducing Hallucinations in Language Model-based SPARQL Query Generation Using Post-Generation Memory Retrieval
February 19, 2025
Autoren: Aditya Sharma, Luis Lara, Amal Zouaq, Christopher J. Pal
cs.AI
Zusammenfassung
Die Fähigkeit, SPARQL-Abfragen aus natürlichen Sprachfragen zu generieren, ist entscheidend für die effiziente und genaue Abfrage strukturierter Daten aus Wissensgraphen (KG). Obwohl große Sprachmodelle (LLMs) weit verbreitet für die Generierung von SPARQL-Abfragen eingesetzt werden, sind sie oft anfällig für Halluzinationen und Fehler außerhalb der Verteilung, wenn sie KG-Elemente wie Uniform Resource Identifiers (URIs) basierend auf internem parametrischem Wissen erzeugen. Dies führt häufig zu Inhalten, die plausibel erscheinen, aber faktisch falsch sind, was erhebliche Herausforderungen für ihren Einsatz in realen Anwendungen zur Informationsbeschaffung (IR) darstellt. Dies hat zu verstärkter Forschung geführt, die darauf abzielt, solche Fehler zu erkennen und zu mindern. In diesem Artikel stellen wir PGMR (Post-Generation Memory Retrieval) vor, ein modulares Framework, das ein nicht-parametrisches Speichermodul integriert, um KG-Elemente abzurufen und die LLM-basierte SPARQL-Abfragegenerierung zu verbessern. Unsere experimentellen Ergebnisse zeigen, dass PGMR durchweg starke Leistungen über verschiedene Datensätze, Datenverteilungen und LLMs hinweg liefert. Besonders hervorzuheben ist, dass PGMR URI-Halluzinationen signifikant reduziert und das Problem in mehreren Szenarien nahezu vollständig beseitigt.
English
The ability to generate SPARQL queries from natural language questions is
crucial for ensuring efficient and accurate retrieval of structured data from
knowledge graphs (KG). While large language models (LLMs) have been widely
adopted for SPARQL query generation, they are often susceptible to
hallucinations and out-of-distribution errors when producing KG elements like
Uniform Resource Identifiers (URIs) based on internal parametric knowledge.
This often results in content that appears plausible but is factually
incorrect, posing significant challenges for their use in real-world
information retrieval (IR) applications. This has led to increased research
aimed at detecting and mitigating such errors. In this paper, we introduce PGMR
(Post-Generation Memory Retrieval), a modular framework that incorporates a
non-parametric memory module to retrieve KG elements and enhance LLM-based
SPARQL query generation. Our experimental results indicate that PGMR
consistently delivers strong performance across diverse datasets, data
distributions, and LLMs. Notably, PGMR significantly mitigates URI
hallucinations, nearly eliminating the problem in several scenarios.Summary
AI-Generated Summary