Benchmarken van Grote Taalmodellen voor Validatie van Kennisgrafen

Samenvatting

Kennisgrafen (KG's) slaan gestructureerde feitelijke kennis op door entiteiten via relaties te verbinden, wat cruciaal is voor vele toepassingen. Deze toepassingen zijn afhankelijk van de feitelijke nauwkeurigheid van de KG, waardoor feitenverificatie essentieel maar uitdagend is. Handmatige verificatie door experts is ideaal maar onpraktisch op grote schaal. Geautomatiseerde methoden tonen potentieel maar zijn nog niet klaar voor real-world KG's. Grote Taalmodellen (LLM's) bieden mogelijkheden dankzij hun semantisch begrip en kennistoegang, maar hun geschiktheid en effectiviteit voor KG-feitenvalidatie blijven grotendeels onontgonnen. In dit artikel introduceren we FactCheck, een benchmark ontworpen om LLM's te evalueren voor KG-feitenvalidatie langs drie dimensies: (1) de interne kennis van LLM's; (2) externe evidentie via Retrieval-Augmented Generation (RAG); en (3) geaggregeerde kennis met een multi-model consensusstrategie. We evalueerden open-source en commerciële LLM's op drie diverse real-world KG's. FactCheck omvat ook een RAG-dataset met meer dan 2 miljoen documenten, toegesneden op KG-feitenvalidatie. Daarnaast bieden we een interactief exploratieplatform voor het analyseren van verificatiebeslissingen. De experimentele analyses tonen aan dat LLM's weliswaar veelbelovende resultaten opleveren, maar nog onvoldoende stabiel en betrouwbaar zijn voor gebruik in real-world KG-validatiescenario's. Het integreren van externe evidentie via RAG-methoden levert wisselvallige prestaties op, met inconsistente verbeteringen ten opzichte van gestroomlijndere aanpakken – tegen hogere computationele kosten. Evenzo overtreffen strategieën gebaseerd op multi-model consensus niet consistent individuele modellen, wat het ontbreken van een universele oplossing onderstreept. Deze bevindingen benadrukken de noodzaak van een benchmark zoals FactCheck om deze moeilijke maar cruciale taak systematisch te evalueren en vooruitgang te stimuleren.

English

Knowledge Graphs (KGs) store structured factual knowledge by linking entities through relationships, crucial for many applications. These applications depend on the KG's factual accuracy, so verifying facts is essential, yet challenging. Expert manual verification is ideal but impractical on a large scale. Automated methods show promise but are not ready for real-world KGs. Large Language Models (LLMs) offer potential with their semantic understanding and knowledge access, yet their suitability and effectiveness for KG fact validation remain largely unexplored. In this paper, we introduce FactCheck, a benchmark designed to evaluate LLMs for KG fact validation across three key dimensions: (1) LLMs internal knowledge; (2) external evidence via Retrieval-Augmented Generation (RAG); and (3) aggregated knowledge employing a multi-model consensus strategy. We evaluated open-source and commercial LLMs on three diverse real-world KGs. FactCheck also includes a RAG dataset with 2+ million documents tailored for KG fact validation. Additionally, we offer an interactive exploration platform for analyzing verification decisions. The experimental analyses demonstrate that while LLMs yield promising results, they are still not sufficiently stable and reliable to be used in real-world KG validation scenarios. Integrating external evidence through RAG methods yields fluctuating performance, providing inconsistent improvements over more streamlined approaches -- at higher computational costs. Similarly, strategies based on multi-model consensus do not consistently outperform individual models, underscoring the lack of a one-fits-all solution. These findings further emphasize the need for a benchmark like FactCheck to systematically evaluate and drive progress on this difficult yet crucial task.

Benchmarken van Grote Taalmodellen voor Validatie van Kennisgrafen

Benchmarking Large Language Models for Knowledge Graph Validation

Samenvatting

Support