TrueTeacher: Aprendendo Avaliação de Consistência Factual com Modelos de Linguagem de Grande Escala

Resumo

A avaliação de consistência factual é frequentemente realizada usando modelos de Inferência em Linguagem Natural (NLI, do inglês Natural Language Inference), porém esses modelos apresentam sucesso limitado na avaliação de resumos. Trabalhos anteriores melhoraram tais modelos com dados de treinamento sintéticos. No entanto, os dados são tipicamente baseados em resumos escritos por humanos e perturbados, que muitas vezes diferem em suas características dos resumos gerados por modelos reais e têm cobertura limitada de possíveis erros factuais. Alternativamente, modelos de linguagem de grande escala (LLMs, do inglês Large Language Models) recentemente mostraram resultados promissores na avaliação direta de tarefas generativas, mas são computacionalmente caros demais para uso prático. Motivados por essas limitações, introduzimos o TrueTeacher, um método para gerar dados sintéticos anotando diversos resumos gerados por modelos usando um LLM. Diferente de trabalhos anteriores, o TrueTeacher não depende de resumos escritos por humanos e é multilingue por natureza. Experimentos no benchmark TRUE mostram que um modelo estudante treinado usando nossos dados supera substancialmente tanto o modelo estado da arte com capacidade similar, quanto o LLM professor. Em um estudo sistemático, comparamos o TrueTeacher a métodos existentes de geração de dados sintéticos e demonstramos sua superioridade e robustez a mudanças de domínio. Usando o conjunto de dados mFACE, também mostramos que nosso método generaliza para cenários multilingues. Por fim, disponibilizamos um grande conjunto de dados sintéticos com 1,4 milhão de exemplos gerados usando o TrueTeacher.

English

Factual consistency evaluation is often conducted using Natural Language Inference (NLI) models, yet these models exhibit limited success in evaluating summaries. Previous work improved such models with synthetic training data. However, the data is typically based on perturbed human-written summaries, which often differ in their characteristics from real model-generated summaries and have limited coverage of possible factual errors. Alternatively, large language models (LLMs) have recently shown promising results in directly evaluating generative tasks, but are too computationally expensive for practical use. Motivated by these limitations, we introduce TrueTeacher, a method for generating synthetic data by annotating diverse model-generated summaries using a LLM. Unlike prior work, TrueTeacher does not rely on human-written summaries, and is multilingual by nature. Experiments on the TRUE benchmark show that a student model trained using our data, substantially outperforms both the state-of-the-art model with similar capacity, and the LLM teacher. In a systematic study, we compare TrueTeacher to existing synthetic data generation methods and demonstrate its superiority and robustness to domain-shift. Using the the mFACE dataset, we also show that our method generalizes to multilingual scenarios. Finally, we release a large-scale synthetic dataset with 1.4M examples generated using TrueTeacher.

TrueTeacher: Aprendendo Avaliação de Consistência Factual com Modelos de Linguagem de Grande Escala

TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models

Resumo

Support