ChatPaper.aiChatPaper

Genie: Достижение паритета с человеком в генерации наборов данных с привязкой к содержанию

Genie: Achieving Human Parity in Content-Grounded Datasets Generation

January 25, 2024
Авторы: Asaf Yehudai, Boaz Carmeli, Yosi Mass, Ofir Arviv, Nathaniel Mills, Assaf Toledo, Eyal Shnarch, Leshem Choshen
cs.AI

Аннотация

Отсутствие высококачественных данных для задач генерации, основанной на контенте, было определено как основное препятствие для прогресса в этих задачах. Чтобы устранить этот пробел, мы предлагаем Genie — новый метод автоматической генерации высококачественных данных, основанных на контенте. Он состоит из трех этапов: (a) Подготовка контента, (b) Генерация: создание примеров, специфичных для задачи, на основе контента (например, пар вопрос-ответ или резюме). (c) Механизм фильтрации, направленный на обеспечение качества и достоверности сгенерированных данных. Мы демонстрируем эту методологию, генерируя три крупномасштабных синтетических набора данных для задач длинного ответа на вопросы (LFQA), суммаризации и извлечения информации. В ходе человеческой оценки наши сгенерированные данные были признаны естественными и высококачественными. Кроме того, мы сравниваем модели, обученные на наших данных, с моделями, обученными на данных, написанных людьми — ELI5 и ASQA для LFQA и CNN-DailyMail для суммаризации. Мы показываем, что наши модели либо соответствуют, либо превосходят модели, обученные на данных, созданных людьми, и стабильно превосходят их по достоверности. Наконец, мы применили наш метод для создания данных LFQA в медицинской области и сравнили модель, обученную на них, с моделями, обученными в других областях.
English
The lack of high-quality data for content-grounded generation tasks has been identified as a major obstacle to advancing these tasks. To address this gap, we propose Genie, a novel method for automatically generating high-quality content-grounded data. It consists of three stages: (a) Content Preparation, (b) Generation: creating task-specific examples from the content (e.g., question-answer pairs or summaries). (c) Filtering mechanism aiming to ensure the quality and faithfulness of the generated data. We showcase this methodology by generating three large-scale synthetic data, making wishes, for Long-Form Question-Answering (LFQA), summarization, and information extraction. In a human evaluation, our generated data was found to be natural and of high quality. Furthermore, we compare models trained on our data with models trained on human-written data -- ELI5 and ASQA for LFQA and CNN-DailyMail for Summarization. We show that our models are on par with or outperforming models trained on human-generated data and consistently outperforming them in faithfulness. Finally, we applied our method to create LFQA data within the medical domain and compared a model trained on it with models trained on other domains.
PDF81December 15, 2024