Desvendando as Capacidades dos Modelos de Linguagem na Sumarização de Notícias
Unraveling the Capabilities of Language Models in News Summarization
January 30, 2025
Autores: Abdurrahman Odabaşı, Göksel Biricik
cs.AI
Resumo
Dada a recente introdução de vários modelos de linguagem e a contínua demanda por melhorias em tarefas de Processamento de Linguagem Natural, especialmente na sumarização, este trabalho fornece uma avaliação abrangente de 20 modelos de linguagem recentes, concentrando-se nos menores para a tarefa de sumarização de notícias. Neste trabalho, testamos sistematicamente as capacidades e eficácia desses modelos na sumarização de textos de artigos de notícias escritos em estilos diferentes e apresentados em três conjuntos de dados distintos. Especificamente, neste estudo, focamos em configurações de aprendizado zero-shot e few-shot e aplicamos uma metodologia de avaliação robusta que combina diferentes conceitos de avaliação, incluindo métricas automáticas, avaliação humana e LLM-como-juiz. Curiosamente, a inclusão de exemplos de demonstração na configuração de aprendizado few-shot não melhorou o desempenho dos modelos e, em alguns casos, até levou a uma qualidade inferior das sumarizações geradas. Esse problema surge principalmente devido à baixa qualidade das sumarizações de referência que foram usadas, o que impacta negativamente o desempenho dos modelos. Além disso, os resultados de nosso estudo destacam o desempenho excepcional do GPT-3.5-Turbo e do GPT-4, que geralmente se destacam por suas capacidades avançadas. No entanto, entre os modelos públicos avaliados, certos modelos como Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B e Zephyr-7B-Beta demonstraram resultados promissores. Esses modelos mostraram um potencial significativo, posicionando-os como alternativas competitivas aos grandes modelos para a tarefa de sumarização de notícias.
English
Given the recent introduction of multiple language models and the ongoing
demand for improved Natural Language Processing tasks, particularly
summarization, this work provides a comprehensive benchmarking of 20 recent
language models, focusing on smaller ones for the news summarization task. In
this work, we systematically test the capabilities and effectiveness of these
models in summarizing news article texts which are written in different styles
and presented in three distinct datasets. Specifically, we focus in this study
on zero-shot and few-shot learning settings and we apply a robust evaluation
methodology that combines different evaluation concepts including automatic
metrics, human evaluation, and LLM-as-a-judge. Interestingly, including
demonstration examples in the few-shot learning setting did not enhance models'
performance and, in some cases, even led to worse quality of the generated
summaries. This issue arises mainly due to the poor quality of the gold
summaries that have been used as reference summaries, which negatively impacts
the models' performance. Furthermore, our study's results highlight the
exceptional performance of GPT-3.5-Turbo and GPT-4, which generally dominate
due to their advanced capabilities. However, among the public models evaluated,
certain models such as Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B
and Zephyr-7B-Beta demonstrated promising results. These models showed
significant potential, positioning them as competitive alternatives to large
models for the task of news summarization.Summary
AI-Generated Summary