Genie: Raggiungere la parità umana nella generazione di dataset basati su contenuti

Abstract

La mancanza di dati di alta qualità per i task di generazione basata su contenuti è stata identificata come un ostacolo significativo per il progresso in queste attività. Per colmare questa lacuna, proponiamo Genie, un metodo innovativo per generare automaticamente dati di alta qualità basati su contenuti. Il metodo si articola in tre fasi: (a) Preparazione del contenuto, (b) Generazione: creazione di esempi specifici per il task a partire dal contenuto (ad esempio, coppie domanda-risposta o riassunti). (c) Meccanismo di filtraggio volto a garantire la qualità e la fedeltà dei dati generati. Dimostriamo questa metodologia generando tre ampi dataset sintetici, con l'obiettivo di migliorare il Long-Form Question-Answering (LFQA), la summarization e l'estrazione di informazioni. In una valutazione umana, i nostri dati generati sono risultati naturali e di alta qualità. Inoltre, confrontiamo modelli addestrati sui nostri dati con modelli addestrati su dati scritti da esseri umani — ELI5 e ASQA per LFQA e CNN-DailyMail per la summarization. Mostriamo che i nostri modelli sono pari o superiori ai modelli addestrati su dati generati da esseri umani e li superano costantemente in termini di fedeltà. Infine, abbiamo applicato il nostro metodo per creare dati LFQA nel dominio medico e confrontato un modello addestrato su questi dati con modelli addestrati su altri domini.

English

The lack of high-quality data for content-grounded generation tasks has been identified as a major obstacle to advancing these tasks. To address this gap, we propose Genie, a novel method for automatically generating high-quality content-grounded data. It consists of three stages: (a) Content Preparation, (b) Generation: creating task-specific examples from the content (e.g., question-answer pairs or summaries). (c) Filtering mechanism aiming to ensure the quality and faithfulness of the generated data. We showcase this methodology by generating three large-scale synthetic data, making wishes, for Long-Form Question-Answering (LFQA), summarization, and information extraction. In a human evaluation, our generated data was found to be natural and of high quality. Furthermore, we compare models trained on our data with models trained on human-written data -- ELI5 and ASQA for LFQA and CNN-DailyMail for Summarization. We show that our models are on par with or outperforming models trained on human-generated data and consistently outperforming them in faithfulness. Finally, we applied our method to create LFQA data within the medical domain and compared a model trained on it with models trained on other domains.

Genie: Raggiungere la parità umana nella generazione di dataset basati su contenuti

Genie: Achieving Human Parity in Content-Grounded Datasets Generation

Abstract

Support