TrueTeacher: Aprendendo Avaliação de Consistência Factual com Modelos de Linguagem de Grande Escala
TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models
May 18, 2023
Autores: Zorik Gekhman, Jonathan Herzig, Roee Aharoni, Chen Elkind, Idan Szpektor
cs.AI
Resumo
A avaliação de consistência factual é frequentemente realizada usando modelos de Inferência em Linguagem Natural (NLI, do inglês Natural Language Inference), porém esses modelos apresentam sucesso limitado na avaliação de resumos. Trabalhos anteriores melhoraram tais modelos com dados de treinamento sintéticos. No entanto, os dados são tipicamente baseados em resumos escritos por humanos e perturbados, que muitas vezes diferem em suas características dos resumos gerados por modelos reais e têm cobertura limitada de possíveis erros factuais. Alternativamente, modelos de linguagem de grande escala (LLMs, do inglês Large Language Models) recentemente mostraram resultados promissores na avaliação direta de tarefas generativas, mas são computacionalmente caros demais para uso prático. Motivados por essas limitações, introduzimos o TrueTeacher, um método para gerar dados sintéticos anotando diversos resumos gerados por modelos usando um LLM. Diferente de trabalhos anteriores, o TrueTeacher não depende de resumos escritos por humanos e é multilingue por natureza. Experimentos no benchmark TRUE mostram que um modelo estudante treinado usando nossos dados supera substancialmente tanto o modelo estado da arte com capacidade similar, quanto o LLM professor. Em um estudo sistemático, comparamos o TrueTeacher a métodos existentes de geração de dados sintéticos e demonstramos sua superioridade e robustez a mudanças de domínio. Usando o conjunto de dados mFACE, também mostramos que nosso método generaliza para cenários multilingues. Por fim, disponibilizamos um grande conjunto de dados sintéticos com 1,4 milhão de exemplos gerados usando o TrueTeacher.
English
Factual consistency evaluation is often conducted using Natural Language
Inference (NLI) models, yet these models exhibit limited success in evaluating
summaries. Previous work improved such models with synthetic training data.
However, the data is typically based on perturbed human-written summaries,
which often differ in their characteristics from real model-generated summaries
and have limited coverage of possible factual errors. Alternatively, large
language models (LLMs) have recently shown promising results in directly
evaluating generative tasks, but are too computationally expensive for
practical use. Motivated by these limitations, we introduce TrueTeacher, a
method for generating synthetic data by annotating diverse model-generated
summaries using a LLM. Unlike prior work, TrueTeacher does not rely on
human-written summaries, and is multilingual by nature. Experiments on the TRUE
benchmark show that a student model trained using our data, substantially
outperforms both the state-of-the-art model with similar capacity, and the LLM
teacher. In a systematic study, we compare TrueTeacher to existing synthetic
data generation methods and demonstrate its superiority and robustness to
domain-shift. Using the the mFACE dataset, we also show that our method
generalizes to multilingual scenarios. Finally, we release a large-scale
synthetic dataset with 1.4M examples generated using TrueTeacher.