Descifrando las Capacidades de los Modelos de Lenguaje en la Sumarización de Noticias
Unraveling the Capabilities of Language Models in News Summarization
January 30, 2025
Autores: Abdurrahman Odabaşı, Göksel Biricik
cs.AI
Resumen
Dada la reciente introducción de múltiples modelos de lenguaje y la continua demanda de tareas mejoradas de Procesamiento del Lenguaje Natural, especialmente la sumarización, este trabajo proporciona una evaluación exhaustiva de 20 modelos de lenguaje recientes, centrándose en los más pequeños para la tarea de sumarización de noticias. En este trabajo, probamos sistemáticamente las capacidades y la efectividad de estos modelos en resumir textos de artículos de noticias escritos en diferentes estilos y presentados en tres conjuntos de datos distintos. Específicamente, nos enfocamos en este estudio en entornos de aprendizaje de cero disparos y de pocos disparos, y aplicamos una metodología de evaluación robusta que combina diferentes conceptos de evaluación, incluyendo métricas automáticas, evaluación humana y LLM-como-juez. Curiosamente, incluir ejemplos de demostración en el entorno de aprendizaje de pocos disparos no mejoró el rendimiento de los modelos y, en algunos casos, incluso condujo a una peor calidad de los resúmenes generados. Este problema surge principalmente debido a la baja calidad de los resúmenes de referencia que se han utilizado, lo que impacta negativamente en el rendimiento de los modelos. Además, los resultados de nuestro estudio resaltan el rendimiento excepcional de GPT-3.5-Turbo y GPT-4, que generalmente dominan debido a sus capacidades avanzadas. Sin embargo, entre los modelos públicos evaluados, ciertos modelos como Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B y Zephyr-7B-Beta demostraron resultados prometedores. Estos modelos mostraron un potencial significativo, posicionándolos como alternativas competitivas a los modelos grandes para la tarea de sumarización de noticias.
English
Given the recent introduction of multiple language models and the ongoing
demand for improved Natural Language Processing tasks, particularly
summarization, this work provides a comprehensive benchmarking of 20 recent
language models, focusing on smaller ones for the news summarization task. In
this work, we systematically test the capabilities and effectiveness of these
models in summarizing news article texts which are written in different styles
and presented in three distinct datasets. Specifically, we focus in this study
on zero-shot and few-shot learning settings and we apply a robust evaluation
methodology that combines different evaluation concepts including automatic
metrics, human evaluation, and LLM-as-a-judge. Interestingly, including
demonstration examples in the few-shot learning setting did not enhance models'
performance and, in some cases, even led to worse quality of the generated
summaries. This issue arises mainly due to the poor quality of the gold
summaries that have been used as reference summaries, which negatively impacts
the models' performance. Furthermore, our study's results highlight the
exceptional performance of GPT-3.5-Turbo and GPT-4, which generally dominate
due to their advanced capabilities. However, among the public models evaluated,
certain models such as Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B
and Zephyr-7B-Beta demonstrated promising results. These models showed
significant potential, positioning them as competitive alternatives to large
models for the task of news summarization.Summary
AI-Generated Summary