Genie: Erreichen menschlicher Gleichwertigkeit bei der Generierung inhaltsbasierter Datensätze
Genie: Achieving Human Parity in Content-Grounded Datasets Generation
January 25, 2024
Autoren: Asaf Yehudai, Boaz Carmeli, Yosi Mass, Ofir Arviv, Nathaniel Mills, Assaf Toledo, Eyal Shnarch, Leshem Choshen
cs.AI
Zusammenfassung
Der Mangel an hochwertigen Daten für inhaltsbasierte Generierungsaufgaben wurde als ein wesentliches Hindernis für die Weiterentwicklung dieser Aufgaben identifiziert. Um diese Lücke zu schließen, schlagen wir Genie vor, eine neuartige Methode zur automatischen Generierung von hochwertigen, inhaltsbasierten Daten. Diese besteht aus drei Phasen: (a) Inhaltsvorbereitung, (b) Generierung: Erstellung aufgabenbezogener Beispiele aus dem Inhalt (z. B. Frage-Antwort-Paare oder Zusammenfassungen), (c) ein Filtermechanismus, der darauf abzielt, die Qualität und Treue der generierten Daten sicherzustellen. Wir demonstrieren diese Methodik, indem wir drei groß angelegte synthetische Datensätze für Long-Form Question-Answering (LFQA), Zusammenfassung und Informationsextraktion erstellen. In einer menschlichen Bewertung wurden unsere generierten Daten als natürlich und von hoher Qualität eingestuft. Darüber hinaus vergleichen wir Modelle, die mit unseren Daten trainiert wurden, mit Modellen, die mit von Menschen geschriebenen Daten trainiert wurden – ELI5 und ASQA für LFQA sowie CNN-DailyMail für Zusammenfassungen. Wir zeigen, dass unsere Modelle mit Modellen, die mit menschlich generierten Daten trainiert wurden, gleichauf sind oder diese übertreffen und sie in Bezug auf die Treue konsequent übertreffen. Schließlich haben wir unsere Methode angewendet, um LFQA-Daten im medizinischen Bereich zu erstellen, und ein Modell, das mit diesen Daten trainiert wurde, mit Modellen verglichen, die in anderen Bereichen trainiert wurden.
English
The lack of high-quality data for content-grounded generation tasks has been
identified as a major obstacle to advancing these tasks. To address this gap,
we propose Genie, a novel method for automatically generating high-quality
content-grounded data. It consists of three stages: (a) Content Preparation,
(b) Generation: creating task-specific examples from the content (e.g.,
question-answer pairs or summaries). (c) Filtering mechanism aiming to ensure
the quality and faithfulness of the generated data. We showcase this
methodology by generating three large-scale synthetic data, making wishes, for
Long-Form Question-Answering (LFQA), summarization, and information extraction.
In a human evaluation, our generated data was found to be natural and of high
quality. Furthermore, we compare models trained on our data with models trained
on human-written data -- ELI5 and ASQA for LFQA and CNN-DailyMail for
Summarization. We show that our models are on par with or outperforming models
trained on human-generated data and consistently outperforming them in
faithfulness. Finally, we applied our method to create LFQA data within the
medical domain and compared a model trained on it with models trained on other
domains.