ChatPaper.aiChatPaper

Genie: Alcanzando la paridad humana en la generación de conjuntos de datos basados en contenido

Genie: Achieving Human Parity in Content-Grounded Datasets Generation

January 25, 2024
Autores: Asaf Yehudai, Boaz Carmeli, Yosi Mass, Ofir Arviv, Nathaniel Mills, Assaf Toledo, Eyal Shnarch, Leshem Choshen
cs.AI

Resumen

La falta de datos de alta calidad para tareas de generación basada en contenido ha sido identificada como un obstáculo importante para avanzar en estas tareas. Para abordar esta brecha, proponemos Genie, un método novedoso para generar automáticamente datos de alta calidad basados en contenido. Consta de tres etapas: (a) Preparación del contenido, (b) Generación: creación de ejemplos específicos para la tarea a partir del contenido (por ejemplo, pares de preguntas-respuestas o resúmenes). (c) Mecanismo de filtrado que busca garantizar la calidad y fidelidad de los datos generados. Mostramos esta metodología generando tres conjuntos de datos sintéticos a gran escala, destinados a la Respuesta de Preguntas de Formato Largo (LFQA), la resumidización y la extracción de información. En una evaluación humana, nuestros datos generados fueron considerados naturales y de alta calidad. Además, comparamos modelos entrenados con nuestros datos con modelos entrenados con datos escritos por humanos —ELI5 y ASQA para LFQA y CNN-DailyMail para resumidización—. Demostramos que nuestros modelos son iguales o superan a los modelos entrenados con datos generados por humanos y los superan consistentemente en términos de fidelidad. Finalmente, aplicamos nuestro método para crear datos de LFQA en el dominio médico y comparamos un modelo entrenado con ellos con modelos entrenados en otros dominios.
English
The lack of high-quality data for content-grounded generation tasks has been identified as a major obstacle to advancing these tasks. To address this gap, we propose Genie, a novel method for automatically generating high-quality content-grounded data. It consists of three stages: (a) Content Preparation, (b) Generation: creating task-specific examples from the content (e.g., question-answer pairs or summaries). (c) Filtering mechanism aiming to ensure the quality and faithfulness of the generated data. We showcase this methodology by generating three large-scale synthetic data, making wishes, for Long-Form Question-Answering (LFQA), summarization, and information extraction. In a human evaluation, our generated data was found to be natural and of high quality. Furthermore, we compare models trained on our data with models trained on human-written data -- ELI5 and ASQA for LFQA and CNN-DailyMail for Summarization. We show that our models are on par with or outperforming models trained on human-generated data and consistently outperforming them in faithfulness. Finally, we applied our method to create LFQA data within the medical domain and compared a model trained on it with models trained on other domains.
PDF81December 15, 2024