Vérification des faits étayée par des preuves en utilisant RAG et l'apprentissage en contexte à quelques tirs avec LLM.
Evidence-backed Fact Checking using RAG and Few-Shot In-Context Learning with LLMs
August 22, 2024
Auteurs: Ronit Singhal, Pransh Patwa, Parth Patwa, Aman Chadha, Amitava Das
cs.AI
Résumé
Étant donnée la large diffusion de la désinformation sur les réseaux sociaux, la mise en place de mécanismes de vérification des faits pour les affirmations en ligne est essentielle. Vérifier manuellement chaque affirmation est extrêmement difficile, soulignant le besoin d'un système automatisé de vérification des faits. Cet article présente notre système conçu pour répondre à ce problème. Nous utilisons l'ensemble de données Averitec pour évaluer la véracité des affirmations. En plus de la prédiction de véracité, notre système fournit des preuves à l'appui, extraites de l'ensemble de données. Nous développons un pipeline de Récupération et Génération (RAG) pour extraire des phrases de preuves pertinentes à partir d'une base de connaissances, qui sont ensuite entrées avec l'affirmation dans un grand modèle de langage (LLM) pour la classification. Nous évaluons également les capacités d'apprentissage en contexte restreint (ICL) de plusieurs LLMs. Notre système atteint un score 'Averitec' de 0,33, ce qui représente une amélioration absolue de 22% par rapport à la référence. Tout le code sera disponible sur https://github.com/ronit-singhal/evidence-backed-fact-checking-using-rag-and-few-shot-in-context-learning-with-llms.
English
Given the widespread dissemination of misinformation on social media,
implementing fact-checking mechanisms for online claims is essential. Manually
verifying every claim is highly challenging, underscoring the need for an
automated fact-checking system. This paper presents our system designed to
address this issue. We utilize the Averitec dataset to assess the veracity of
claims. In addition to veracity prediction, our system provides supporting
evidence, which is extracted from the dataset. We develop a Retrieve and
Generate (RAG) pipeline to extract relevant evidence sentences from a knowledge
base, which are then inputted along with the claim into a large language model
(LLM) for classification. We also evaluate the few-shot In-Context Learning
(ICL) capabilities of multiple LLMs. Our system achieves an 'Averitec' score of
0.33, which is a 22% absolute improvement over the baseline. All code will be
made available on All code will be made available on
https://github.com/ronit-singhal/evidence-backed-fact-checking-using-rag-and-few-shot-in-context-learning-with-llms.Summary
AI-Generated Summary