Het ontrafelen van de mogelijkheden van taalmodellen in nieuws samenvattingen.
Unraveling the Capabilities of Language Models in News Summarization
January 30, 2025
Auteurs: Abdurrahman Odabaşı, Göksel Biricik
cs.AI
Samenvatting
Gezien de recente introductie van meerdere taalmodellen en de voortdurende vraag naar verbeterde taken voor natuurlijke taalverwerking, met name samenvattingen, biedt dit werk een uitgebreide benchmark van 20 recente taalmodellen, met de nadruk op kleinere modellen voor de taak van nieuws-samenvattingen. In dit werk testen we systematisch de mogelijkheden en effectiviteit van deze modellen bij het samenvatten van nieuwsartikelteksten die in verschillende stijlen zijn geschreven en worden gepresenteerd in drie verschillende datasets. Specifiek richten we ons in deze studie op zero-shot en few-shot leersituaties en passen we een robuuste evaluatiemethodologie toe die verschillende evaluatieconcepten combineert, waaronder automatische metrieken, menselijke evaluatie en LLM-als-beoordelaar. Interessant genoeg verbeterden demonstratievoorbeelden in de few-shot leersituatie de prestaties van de modellen niet en leidden in sommige gevallen zelfs tot een slechtere kwaliteit van de gegenereerde samenvattingen. Dit probleem ontstaat voornamelijk door de lage kwaliteit van de gouden samenvattingen die zijn gebruikt als referentiesamenvattingen, wat een negatieve invloed heeft op de prestaties van de modellen. Bovendien benadrukken de resultaten van onze studie de uitzonderlijke prestaties van GPT-3.5-Turbo en GPT-4, die over het algemeen domineren vanwege hun geavanceerde mogelijkheden. Onder de geëvalueerde openbare modellen vertoonden bepaalde modellen zoals Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B en Zephyr-7B-Beta veelbelovende resultaten. Deze modellen toonden aanzienlijk potentieel, waardoor ze zich positioneren als competitieve alternatieven voor grote modellen voor de taak van nieuws-samenvattingen.
English
Given the recent introduction of multiple language models and the ongoing
demand for improved Natural Language Processing tasks, particularly
summarization, this work provides a comprehensive benchmarking of 20 recent
language models, focusing on smaller ones for the news summarization task. In
this work, we systematically test the capabilities and effectiveness of these
models in summarizing news article texts which are written in different styles
and presented in three distinct datasets. Specifically, we focus in this study
on zero-shot and few-shot learning settings and we apply a robust evaluation
methodology that combines different evaluation concepts including automatic
metrics, human evaluation, and LLM-as-a-judge. Interestingly, including
demonstration examples in the few-shot learning setting did not enhance models'
performance and, in some cases, even led to worse quality of the generated
summaries. This issue arises mainly due to the poor quality of the gold
summaries that have been used as reference summaries, which negatively impacts
the models' performance. Furthermore, our study's results highlight the
exceptional performance of GPT-3.5-Turbo and GPT-4, which generally dominate
due to their advanced capabilities. However, among the public models evaluated,
certain models such as Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B
and Zephyr-7B-Beta demonstrated promising results. These models showed
significant potential, positioning them as competitive alternatives to large
models for the task of news summarization.