Démêler les capacités des modèles de langage dans la résumé d'actualités
Unraveling the Capabilities of Language Models in News Summarization
January 30, 2025
Auteurs: Abdurrahman Odabaşı, Göksel Biricik
cs.AI
Résumé
Étant donné l'introduction récente de plusieurs modèles de langage et la demande croissante d'amélioration des tâches de traitement du langage naturel, en particulier la résumé, ce travail propose une évaluation complète de 20 modèles de langage récents, en mettant l'accent sur les plus petits pour la tâche de résumé de nouvelles. Dans ce travail, nous testons systématiquement les capacités et l'efficacité de ces modèles pour résumer des textes d'articles de presse rédigés dans différents styles et présentés dans trois ensembles de données distincts. Plus précisément, nous nous concentrons dans cette étude sur les paramètres d'apprentissage à zéro tir et à quelques tirs, et nous appliquons une méthodologie d'évaluation robuste qui combine différents concepts d'évaluation, y compris des mesures automatiques, une évaluation humaine et LLM-comme-juge. De manière intéressante, l'inclusion d'exemples de démonstration dans le paramètre d'apprentissage à quelques tirs n'a pas amélioré les performances des modèles et, dans certains cas, a même conduit à une qualité inférieure des résumés générés. Ce problème découle principalement de la mauvaise qualité des résumés de référence en or qui ont été utilisés, ce qui impacte négativement les performances des modèles. De plus, les résultats de notre étude mettent en avant les performances exceptionnelles de GPT-3.5-Turbo et GPT-4, qui dominent généralement en raison de leurs capacités avancées. Cependant, parmi les modèles publics évalués, certains modèles tels que Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B et Zephyr-7B-Beta ont montré des résultats prometteurs. Ces modèles ont démontré un potentiel significatif, les positionnant comme des alternatives compétitives aux grands modèles pour la tâche de résumé de nouvelles.
English
Given the recent introduction of multiple language models and the ongoing
demand for improved Natural Language Processing tasks, particularly
summarization, this work provides a comprehensive benchmarking of 20 recent
language models, focusing on smaller ones for the news summarization task. In
this work, we systematically test the capabilities and effectiveness of these
models in summarizing news article texts which are written in different styles
and presented in three distinct datasets. Specifically, we focus in this study
on zero-shot and few-shot learning settings and we apply a robust evaluation
methodology that combines different evaluation concepts including automatic
metrics, human evaluation, and LLM-as-a-judge. Interestingly, including
demonstration examples in the few-shot learning setting did not enhance models'
performance and, in some cases, even led to worse quality of the generated
summaries. This issue arises mainly due to the poor quality of the gold
summaries that have been used as reference summaries, which negatively impacts
the models' performance. Furthermore, our study's results highlight the
exceptional performance of GPT-3.5-Turbo and GPT-4, which generally dominate
due to their advanced capabilities. However, among the public models evaluated,
certain models such as Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B
and Zephyr-7B-Beta demonstrated promising results. These models showed
significant potential, positioning them as competitive alternatives to large
models for the task of news summarization.Summary
AI-Generated Summary