ChatPaper.aiChatPaper

Снижение галлюцинаций при генерации SPARQL-запросов на основе языковых моделей с использованием извлечения из памяти после генерации

Reducing Hallucinations in Language Model-based SPARQL Query Generation Using Post-Generation Memory Retrieval

February 19, 2025
Авторы: Aditya Sharma, Luis Lara, Amal Zouaq, Christopher J. Pal
cs.AI

Аннотация

Способность генерировать SPARQL-запросы на основе вопросов на естественном языке имеет решающее значение для обеспечения эффективного и точного извлечения структурированных данных из графов знаний (KG). Хотя крупные языковые модели (LLM) широко используются для генерации SPARQL-запросов, они часто подвержены галлюцинациям и ошибкам, связанным с выходом за пределы распределения, при создании элементов KG, таких как унифицированные идентификаторы ресурсов (URI), на основе внутренних параметрических знаний. Это часто приводит к созданию контента, который кажется правдоподобным, но фактически является ошибочным, что создает значительные трудности для их использования в реальных приложениях информационного поиска (IR). Это привело к увеличению исследований, направленных на обнаружение и устранение таких ошибок. В данной статье мы представляем PGMR (Post-Generation Memory Retrieval), модульную структуру, которая включает непараметрический модуль памяти для извлечения элементов KG и улучшения генерации SPARQL-запросов на основе LLM. Наши экспериментальные результаты показывают, что PGMR демонстрирует стабильно высокую производительность на различных наборах данных, распределениях данных и LLM. В частности, PGMR значительно снижает количество галлюцинаций URI, практически устраняя эту проблему в ряде сценариев.
English
The ability to generate SPARQL queries from natural language questions is crucial for ensuring efficient and accurate retrieval of structured data from knowledge graphs (KG). While large language models (LLMs) have been widely adopted for SPARQL query generation, they are often susceptible to hallucinations and out-of-distribution errors when producing KG elements like Uniform Resource Identifiers (URIs) based on internal parametric knowledge. This often results in content that appears plausible but is factually incorrect, posing significant challenges for their use in real-world information retrieval (IR) applications. This has led to increased research aimed at detecting and mitigating such errors. In this paper, we introduce PGMR (Post-Generation Memory Retrieval), a modular framework that incorporates a non-parametric memory module to retrieve KG elements and enhance LLM-based SPARQL query generation. Our experimental results indicate that PGMR consistently delivers strong performance across diverse datasets, data distributions, and LLMs. Notably, PGMR significantly mitigates URI hallucinations, nearly eliminating the problem in several scenarios.

Summary

AI-Generated Summary

PDF22February 20, 2025