Um Levantamento Sistemático de Sumarização de Texto: Dos Métodos Estatísticos aos Modelos de Linguagem de Grande Escala
A Systematic Survey of Text Summarization: From Statistical Methods to Large Language Models
June 17, 2024
Autores: Haopeng Zhang, Philip S. Yu, Jiawei Zhang
cs.AI
Resumo
A pesquisa em sumarização de texto passou por várias transformações significativas com o advento das redes neurais profundas, modelos de linguagem pré-treinados (PLMs) e os recentes modelos de linguagem de grande escala (LLMs). Esta revisão, portanto, oferece uma análise abrangente do progresso e da evolução da pesquisa em sumarização de texto através do prisma dessas mudanças de paradigma. Ela está organizada em duas partes principais: (1) uma visão detalhada dos conjuntos de dados, métricas de avaliação e métodos de sumarização antes da era dos LLMs, abrangendo métodos estatísticos tradicionais, abordagens de aprendizado profundo e técnicas de ajuste fino de PLMs, e (2) o primeiro exame detalhado dos avanços recentes em benchmarking, modelagem e avaliação de sumarização na era dos LLMs. Ao sintetizar a literatura existente e apresentar uma visão coesa, esta revisão também discute tendências de pesquisa, desafios em aberto e propõe direções promissoras de pesquisa em sumarização, com o objetivo de orientar os pesquisadores através do cenário em evolução da pesquisa em sumarização.
English
Text summarization research has undergone several significant transformations
with the advent of deep neural networks, pre-trained language models (PLMs),
and recent large language models (LLMs). This survey thus provides a
comprehensive review of the research progress and evolution in text
summarization through the lens of these paradigm shifts. It is organized into
two main parts: (1) a detailed overview of datasets, evaluation metrics, and
summarization methods before the LLM era, encompassing traditional statistical
methods, deep learning approaches, and PLM fine-tuning techniques, and (2) the
first detailed examination of recent advancements in benchmarking, modeling,
and evaluating summarization in the LLM era. By synthesizing existing
literature and presenting a cohesive overview, this survey also discusses
research trends, open challenges, and proposes promising research directions in
summarization, aiming to guide researchers through the evolving landscape of
summarization research.