ChatPaper.aiChatPaper

Démêler les capacités des modèles de langage dans la résumé d'actualités

Unraveling the Capabilities of Language Models in News Summarization

January 30, 2025
Auteurs: Abdurrahman Odabaşı, Göksel Biricik
cs.AI

Résumé

Étant donné l'introduction récente de plusieurs modèles de langage et la demande croissante d'amélioration des tâches de traitement du langage naturel, en particulier la résumé, ce travail propose une évaluation complète de 20 modèles de langage récents, en mettant l'accent sur les plus petits pour la tâche de résumé de nouvelles. Dans ce travail, nous testons systématiquement les capacités et l'efficacité de ces modèles pour résumer des textes d'articles de presse rédigés dans différents styles et présentés dans trois ensembles de données distincts. Plus précisément, nous nous concentrons dans cette étude sur les paramètres d'apprentissage à zéro tir et à quelques tirs, et nous appliquons une méthodologie d'évaluation robuste qui combine différents concepts d'évaluation, y compris des mesures automatiques, une évaluation humaine et LLM-comme-juge. De manière intéressante, l'inclusion d'exemples de démonstration dans le paramètre d'apprentissage à quelques tirs n'a pas amélioré les performances des modèles et, dans certains cas, a même conduit à une qualité inférieure des résumés générés. Ce problème découle principalement de la mauvaise qualité des résumés de référence en or qui ont été utilisés, ce qui impacte négativement les performances des modèles. De plus, les résultats de notre étude mettent en avant les performances exceptionnelles de GPT-3.5-Turbo et GPT-4, qui dominent généralement en raison de leurs capacités avancées. Cependant, parmi les modèles publics évalués, certains modèles tels que Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B et Zephyr-7B-Beta ont montré des résultats prometteurs. Ces modèles ont démontré un potentiel significatif, les positionnant comme des alternatives compétitives aux grands modèles pour la tâche de résumé de nouvelles.
English
Given the recent introduction of multiple language models and the ongoing demand for improved Natural Language Processing tasks, particularly summarization, this work provides a comprehensive benchmarking of 20 recent language models, focusing on smaller ones for the news summarization task. In this work, we systematically test the capabilities and effectiveness of these models in summarizing news article texts which are written in different styles and presented in three distinct datasets. Specifically, we focus in this study on zero-shot and few-shot learning settings and we apply a robust evaluation methodology that combines different evaluation concepts including automatic metrics, human evaluation, and LLM-as-a-judge. Interestingly, including demonstration examples in the few-shot learning setting did not enhance models' performance and, in some cases, even led to worse quality of the generated summaries. This issue arises mainly due to the poor quality of the gold summaries that have been used as reference summaries, which negatively impacts the models' performance. Furthermore, our study's results highlight the exceptional performance of GPT-3.5-Turbo and GPT-4, which generally dominate due to their advanced capabilities. However, among the public models evaluated, certain models such as Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B and Zephyr-7B-Beta demonstrated promising results. These models showed significant potential, positioning them as competitive alternatives to large models for the task of news summarization.

Summary

AI-Generated Summary

PDF43February 3, 2025