Verificação de Fatos com Base em Evidências usando RAG e Aprendizado em Contexto com Poucas Amostras com LLMs
Evidence-backed Fact Checking using RAG and Few-Shot In-Context Learning with LLMs
August 22, 2024
Autores: Ronit Singhal, Pransh Patwa, Parth Patwa, Aman Chadha, Amitava Das
cs.AI
Resumo
Dada a ampla disseminação de desinformação nas redes sociais, a implementação de mecanismos de verificação de fatos para alegações online é essencial. Verificar manualmente cada alegação é altamente desafiador, destacando a necessidade de um sistema automatizado de verificação de fatos. Este artigo apresenta nosso sistema projetado para abordar essa questão. Utilizamos o conjunto de dados Averitec para avaliar a veracidade das alegações. Além da previsão de veracidade, nosso sistema fornece evidências de apoio, que são extraídas do conjunto de dados. Desenvolvemos um pipeline de Recuperação e Geração (RAG) para extrair frases de evidências relevantes de uma base de conhecimento, que são então inseridas juntamente com a alegação em um grande modelo de linguagem (LLM) para classificação. Também avaliamos as capacidades de Aprendizado em Contexto Limitado (ICL) de poucas amostras de vários LLMs. Nosso sistema alcança uma pontuação 'Averitec' de 0,33, o que representa uma melhoria absoluta de 22% em relação à linha de base. Todo o código estará disponível em https://github.com/ronit-singhal/evidence-backed-fact-checking-using-rag-and-few-shot-in-context-learning-with-llms.
English
Given the widespread dissemination of misinformation on social media,
implementing fact-checking mechanisms for online claims is essential. Manually
verifying every claim is highly challenging, underscoring the need for an
automated fact-checking system. This paper presents our system designed to
address this issue. We utilize the Averitec dataset to assess the veracity of
claims. In addition to veracity prediction, our system provides supporting
evidence, which is extracted from the dataset. We develop a Retrieve and
Generate (RAG) pipeline to extract relevant evidence sentences from a knowledge
base, which are then inputted along with the claim into a large language model
(LLM) for classification. We also evaluate the few-shot In-Context Learning
(ICL) capabilities of multiple LLMs. Our system achieves an 'Averitec' score of
0.33, which is a 22% absolute improvement over the baseline. All code will be
made available on All code will be made available on
https://github.com/ronit-singhal/evidence-backed-fact-checking-using-rag-and-few-shot-in-context-learning-with-llms.Summary
AI-Generated Summary