Verdade ou Miragem? Rumo à Avaliação de Factualidade de Ponta a Ponta com LLM-OASIS
Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-OASIS
November 29, 2024
Autores: Alessandro Scirè, Andrei Stefan Bejgu, Simone Tedeschi, Karim Ghonim, Federico Martelli, Roberto Navigli
cs.AI
Resumo
Após a introdução dos Modelos de Linguagem de Grande Escala (LLMs), houve melhorias substanciais no desempenho de tarefas de Geração de Linguagem Natural (NLG), incluindo Sumarização de Texto e Tradução Automática. No entanto, os LLMs ainda produzem saídas contendo alucinações, ou seja, conteúdo não fundamentado em informações factuais. Portanto, desenvolver métodos para avaliar a factualidade dos LLMs tornou-se urgente.
De fato, recursos para avaliação de factualidade surgiram recentemente. Embora desafiadores, esses recursos enfrentam uma ou mais das seguintes limitações: (i) são adaptados a uma tarefa ou domínio específico; (ii) são limitados em tamanho, impedindo assim o treinamento de novos avaliadores de factualidade; (iii) são projetados para tarefas de verificação mais simples, como verificação de alegações.
Para abordar essas questões, apresentamos o LLM-Oasis, até onde sabemos o maior recurso para treinar avaliadores de factualidade de ponta a ponta. O LLM-Oasis é construído pela extração de alegações da Wikipedia, falsificando um subconjunto dessas alegações e gerando pares de textos factuais e não factuais. Em seguida, contamos com anotadores humanos para validar a qualidade de nosso conjunto de dados e criar um conjunto de testes padrão-ouro para avaliar sistemas de avaliação de factualidade.
Nossos experimentos demonstram que o LLM-Oasis apresenta um desafio significativo para os LLMs de última geração, com o GPT-4o alcançando até 60% de precisão em nossa proposta de tarefa de avaliação de factualidade de ponta a ponta, destacando seu potencial para impulsionar pesquisas futuras no campo.
English
After the introduction of Large Language Models (LLMs), there have been
substantial improvements in the performance of Natural Language Generation
(NLG) tasks, including Text Summarization and Machine Translation. However,
LLMs still produce outputs containing hallucinations, that is, content not
grounded in factual information. Therefore, developing methods to assess the
factuality of LLMs has become urgent.
Indeed, resources for factuality evaluation have recently emerged. Although
challenging, these resources face one or more of the following limitations: (i)
they are tailored to a specific task or domain; (ii) they are limited in size,
thereby preventing the training of new factuality evaluators; (iii) they are
designed for simpler verification tasks, such as claim verification.
To address these issues, we introduce LLM-Oasis, to the best of our knowledge
the largest resource for training end-to-end factuality evaluators. LLM-Oasis
is constructed by extracting claims from Wikipedia, falsifying a subset of
these claims, and generating pairs of factual and unfactual texts. We then rely
on human annotators to both validate the quality of our dataset and to create a
gold standard test set for benchmarking factuality evaluation systems.
Our experiments demonstrate that LLM-Oasis presents a significant challenge
for state-of-the-art LLMs, with GPT-4o achieving up to 60% accuracy in our
proposed end-to-end factuality evaluation task, highlighting its potential to
drive future research in the field.Summary
AI-Generated Summary