Систематический обзор сжатия текста: от статистических методов до больших языковых моделей
A Systematic Survey of Text Summarization: From Statistical Methods to Large Language Models
June 17, 2024
Авторы: Haopeng Zhang, Philip S. Yu, Jiawei Zhang
cs.AI
Аннотация
Исследования в области сжатия текста претерпели значительные изменения с появлением глубоких нейронных сетей, предварительно обученных языковых моделей (PLM) и недавних больших языковых моделей (LLM). В данном обзоре представлено всестороннее рассмотрение прогресса и эволюции исследований в области сжатия текста через призму этих парадигмальных сдвигов. Он разделен на две основные части: (1) подробный обзор наборов данных, метрик оценки и методов сжатия текста до эры LLM, охватывающий традиционные статистические методы, подходы глубокого обучения и техники настройки PLM, и (2) первое детальное рассмотрение недавних достижений в оценке, моделировании и оценке сжатия в эпоху LLM. Синтезируя существующую литературу и представляя цельный обзор, данный обзор также обсуждает тенденции исследований, открытые проблемы и предлагает многообещающие направления исследований в области сжатия, с целью направить исследователей через изменяющийся ландшафт исследований в области сжатия текста.
English
Text summarization research has undergone several significant transformations
with the advent of deep neural networks, pre-trained language models (PLMs),
and recent large language models (LLMs). This survey thus provides a
comprehensive review of the research progress and evolution in text
summarization through the lens of these paradigm shifts. It is organized into
two main parts: (1) a detailed overview of datasets, evaluation metrics, and
summarization methods before the LLM era, encompassing traditional statistical
methods, deep learning approaches, and PLM fine-tuning techniques, and (2) the
first detailed examination of recent advancements in benchmarking, modeling,
and evaluating summarization in the LLM era. By synthesizing existing
literature and presenting a cohesive overview, this survey also discusses
research trends, open challenges, and proposes promising research directions in
summarization, aiming to guide researchers through the evolving landscape of
summarization research.Summary
AI-Generated Summary