Genie: Raggiungere la parità umana nella generazione di dataset basati su contenuti
Genie: Achieving Human Parity in Content-Grounded Datasets Generation
January 25, 2024
Autori: Asaf Yehudai, Boaz Carmeli, Yosi Mass, Ofir Arviv, Nathaniel Mills, Assaf Toledo, Eyal Shnarch, Leshem Choshen
cs.AI
Abstract
La mancanza di dati di alta qualità per i task di generazione basata su contenuti è stata identificata come un ostacolo significativo per il progresso in queste attività. Per colmare questa lacuna, proponiamo Genie, un metodo innovativo per generare automaticamente dati di alta qualità basati su contenuti. Il metodo si articola in tre fasi: (a) Preparazione del contenuto, (b) Generazione: creazione di esempi specifici per il task a partire dal contenuto (ad esempio, coppie domanda-risposta o riassunti). (c) Meccanismo di filtraggio volto a garantire la qualità e la fedeltà dei dati generati. Dimostriamo questa metodologia generando tre ampi dataset sintetici, con l'obiettivo di migliorare il Long-Form Question-Answering (LFQA), la summarization e l'estrazione di informazioni. In una valutazione umana, i nostri dati generati sono risultati naturali e di alta qualità. Inoltre, confrontiamo modelli addestrati sui nostri dati con modelli addestrati su dati scritti da esseri umani — ELI5 e ASQA per LFQA e CNN-DailyMail per la summarization. Mostriamo che i nostri modelli sono pari o superiori ai modelli addestrati su dati generati da esseri umani e li superano costantemente in termini di fedeltà. Infine, abbiamo applicato il nostro metodo per creare dati LFQA nel dominio medico e confrontato un modello addestrato su questi dati con modelli addestrati su altri domini.
English
The lack of high-quality data for content-grounded generation tasks has been
identified as a major obstacle to advancing these tasks. To address this gap,
we propose Genie, a novel method for automatically generating high-quality
content-grounded data. It consists of three stages: (a) Content Preparation,
(b) Generation: creating task-specific examples from the content (e.g.,
question-answer pairs or summaries). (c) Filtering mechanism aiming to ensure
the quality and faithfulness of the generated data. We showcase this
methodology by generating three large-scale synthetic data, making wishes, for
Long-Form Question-Answering (LFQA), summarization, and information extraction.
In a human evaluation, our generated data was found to be natural and of high
quality. Furthermore, we compare models trained on our data with models trained
on human-written data -- ELI5 and ASQA for LFQA and CNN-DailyMail for
Summarization. We show that our models are on par with or outperforming models
trained on human-generated data and consistently outperforming them in
faithfulness. Finally, we applied our method to create LFQA data within the
medical domain and compared a model trained on it with models trained on other
domains.