ChatPaper.aiChatPaper

Genie : Atteindre la parité humaine dans la génération de jeux de données ancrés dans le contenu

Genie: Achieving Human Parity in Content-Grounded Datasets Generation

January 25, 2024
Auteurs: Asaf Yehudai, Boaz Carmeli, Yosi Mass, Ofir Arviv, Nathaniel Mills, Assaf Toledo, Eyal Shnarch, Leshem Choshen
cs.AI

Résumé

L'absence de données de haute qualité pour les tâches de génération ancrée dans le contenu a été identifiée comme un obstacle majeur à l'avancement de ces tâches. Pour combler cette lacune, nous proposons Genie, une méthode novatrice permettant de générer automatiquement des données de haute qualité ancrées dans le contenu. Elle se compose de trois étapes : (a) Préparation du contenu, (b) Génération : création d'exemples spécifiques à la tâche à partir du contenu (par exemple, des paires question-réponse ou des résumés). (c) Mécanisme de filtrage visant à garantir la qualité et la fidélité des données générées. Nous illustrons cette méthodologie en générant trois ensembles de données synthétiques à grande échelle pour la réponse à des questions longues (Long-Form Question-Answering, LFQA), la synthèse et l'extraction d'informations. Lors d'une évaluation humaine, nos données générées ont été jugées naturelles et de haute qualité. De plus, nous comparons les modèles entraînés sur nos données avec des modèles entraînés sur des données rédigées par des humains — ELI5 et ASQA pour la LFQA, et CNN-DailyMail pour la synthèse. Nous montrons que nos modèles sont comparables ou surpassent les modèles entraînés sur des données générées par des humains et les surpassent systématiquement en termes de fidélité. Enfin, nous avons appliqué notre méthode pour créer des données LFQA dans le domaine médical et avons comparé un modèle entraîné sur ces données avec des modèles entraînés sur d'autres domaines.
English
The lack of high-quality data for content-grounded generation tasks has been identified as a major obstacle to advancing these tasks. To address this gap, we propose Genie, a novel method for automatically generating high-quality content-grounded data. It consists of three stages: (a) Content Preparation, (b) Generation: creating task-specific examples from the content (e.g., question-answer pairs or summaries). (c) Filtering mechanism aiming to ensure the quality and faithfulness of the generated data. We showcase this methodology by generating three large-scale synthetic data, making wishes, for Long-Form Question-Answering (LFQA), summarization, and information extraction. In a human evaluation, our generated data was found to be natural and of high quality. Furthermore, we compare models trained on our data with models trained on human-written data -- ELI5 and ASQA for LFQA and CNN-DailyMail for Summarization. We show that our models are on par with or outperforming models trained on human-generated data and consistently outperforming them in faithfulness. Finally, we applied our method to create LFQA data within the medical domain and compared a model trained on it with models trained on other domains.
PDF81December 15, 2024