SurveySum: un insieme di dati per riassumere più articoli scientifici in una sezione di riepilogo
SurveySum: A Dataset for Summarizing Multiple Scientific Articles into a Survey Section
August 29, 2024
Autori: Leandro Carísio Fernandes, Gustavo Bartz Guedes, Thiago Soares Laitz, Thales Sales Almeida, Rodrigo Nogueira, Roberto Lotufo, Jayr Pereira
cs.AI
Abstract
La riassunzione di documenti è un compito finalizzato a ridurre i testi in sintesi concise e informative. Questo articolo introduce un nuovo dataset progettato per riassumere più articoli scientifici in una sezione di una panoramica. Le nostre contribuzioni sono: (1) SurveySum, un nuovo dataset che affronta il vuoto negli strumenti di riassunto specifici del dominio; (2) due pipeline specifiche per riassumere articoli scientifici in una sezione di una panoramica; e (3) la valutazione di queste pipeline utilizzando diversi metriche per confrontarne le prestazioni. I nostri risultati evidenziano l'importanza delle fasi di recupero di alta qualità e l'impatto delle diverse configurazioni sulla qualità delle sintesi generate.
English
Document summarization is a task to shorten texts into concise and
informative summaries. This paper introduces a novel dataset designed for
summarizing multiple scientific articles into a section of a survey. Our
contributions are: (1) SurveySum, a new dataset addressing the gap in
domain-specific summarization tools; (2) two specific pipelines to summarize
scientific articles into a section of a survey; and (3) the evaluation of these
pipelines using multiple metrics to compare their performance. Our results
highlight the importance of high-quality retrieval stages and the impact of
different configurations on the quality of generated summaries.