ChatPaper.aiChatPaper

Genie: Het Bereiken van Menselijke Pariteit in het Genereren van Inhoudsgebaseerde Datasets

Genie: Achieving Human Parity in Content-Grounded Datasets Generation

January 25, 2024
Auteurs: Asaf Yehudai, Boaz Carmeli, Yosi Mass, Ofir Arviv, Nathaniel Mills, Assaf Toledo, Eyal Shnarch, Leshem Choshen
cs.AI

Samenvatting

Het gebrek aan hoogwaardige data voor taken in inhoudsgebaseerde generatie is geïdentificeerd als een belangrijk obstakel voor de vooruitgang van deze taken. Om dit gat te dichten, stellen we Genie voor, een nieuwe methode voor het automatisch genereren van hoogwaardige inhoudsgebaseerde data. Deze bestaat uit drie fasen: (a) Inhoudsvoorbereiding, (b) Generatie: het creëren van taakspecifieke voorbeelden uit de inhoud (bijv. vraag-antwoordparen of samenvattingen). (c) Een filtermechanisme dat gericht is op het waarborgen van de kwaliteit en betrouwbaarheid van de gegenereerde data. We demonstreren deze methodologie door drie grootschalige synthetische datasets te genereren, gericht op Long-Form Question-Answering (LFQA), samenvatting en informatie-extractie. In een menselijke evaluatie werd onze gegenereerde data als natuurlijk en van hoge kwaliteit beoordeeld. Bovendien vergelijken we modellen die getraind zijn op onze data met modellen die getraind zijn op door mensen geschreven data — ELI5 en ASQA voor LFQA en CNN-DailyMail voor samenvatting. We tonen aan dat onze modellen gelijkwaardig zijn aan of beter presteren dan modellen die getraind zijn op door mensen gegenereerde data, en consistent beter presteren in betrouwbaarheid. Tot slot hebben we onze methode toegepast om LFQA-data binnen het medische domein te creëren en vergeleken we een model dat hierop getraind is met modellen die getraind zijn op andere domeinen.
English
The lack of high-quality data for content-grounded generation tasks has been identified as a major obstacle to advancing these tasks. To address this gap, we propose Genie, a novel method for automatically generating high-quality content-grounded data. It consists of three stages: (a) Content Preparation, (b) Generation: creating task-specific examples from the content (e.g., question-answer pairs or summaries). (c) Filtering mechanism aiming to ensure the quality and faithfulness of the generated data. We showcase this methodology by generating three large-scale synthetic data, making wishes, for Long-Form Question-Answering (LFQA), summarization, and information extraction. In a human evaluation, our generated data was found to be natural and of high quality. Furthermore, we compare models trained on our data with models trained on human-written data -- ELI5 and ASQA for LFQA and CNN-DailyMail for Summarization. We show that our models are on par with or outperforming models trained on human-generated data and consistently outperforming them in faithfulness. Finally, we applied our method to create LFQA data within the medical domain and compared a model trained on it with models trained on other domains.
PDF81February 7, 2026