Svelare le Capacità dei Modelli Linguistici nella Riassunzione di Notizie
Unraveling the Capabilities of Language Models in News Summarization
January 30, 2025
Autori: Abdurrahman Odabaşı, Göksel Biricik
cs.AI
Abstract
Data l'introduzione recente di diversi modelli linguistici e la costante richiesta di miglioramenti nelle attività di Elaborazione del Linguaggio Naturale, in particolare nella sintesi, questo lavoro fornisce una valutazione completa di 20 modelli linguistici recenti, concentrandosi su quelli più piccoli per l'attività di sintesi delle notizie. In questo studio, testiamo sistematicamente le capacità e l'efficacia di questi modelli nel riassumere testi di articoli di notizie scritti in stili diversi e presentati in tre set di dati distinti. In particolare, ci concentriamo in questo studio sulle impostazioni di apprendimento zero-shot e few-shot e applichiamo una metodologia di valutazione robusta che combina diversi concetti di valutazione, inclusi metriche automatiche, valutazione umana e LLM-come-giudice. È interessante notare che includere esempi dimostrativi nell'impostazione di apprendimento few-shot non ha migliorato le prestazioni dei modelli e, in alcuni casi, ha addirittura portato a una qualità peggiore dei riassunti generati. Questo problema sorge principalmente a causa della scarsa qualità dei riassunti di riferimento utilizzati, che influisce negativamente sulle prestazioni dei modelli. Inoltre, i risultati del nostro studio evidenziano le eccezionali prestazioni di GPT-3.5-Turbo e GPT-4, che generalmente dominano grazie alle loro capacità avanzate. Tuttavia, tra i modelli pubblici valutati, alcuni modelli come Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B e Zephyr-7B-Beta hanno mostrato risultati promettenti. Questi modelli hanno dimostrato un potenziale significativo, posizionandoli come alternative competitive ai modelli più grandi per l'attività di sintesi delle notizie.
English
Given the recent introduction of multiple language models and the ongoing
demand for improved Natural Language Processing tasks, particularly
summarization, this work provides a comprehensive benchmarking of 20 recent
language models, focusing on smaller ones for the news summarization task. In
this work, we systematically test the capabilities and effectiveness of these
models in summarizing news article texts which are written in different styles
and presented in three distinct datasets. Specifically, we focus in this study
on zero-shot and few-shot learning settings and we apply a robust evaluation
methodology that combines different evaluation concepts including automatic
metrics, human evaluation, and LLM-as-a-judge. Interestingly, including
demonstration examples in the few-shot learning setting did not enhance models'
performance and, in some cases, even led to worse quality of the generated
summaries. This issue arises mainly due to the poor quality of the gold
summaries that have been used as reference summaries, which negatively impacts
the models' performance. Furthermore, our study's results highlight the
exceptional performance of GPT-3.5-Turbo and GPT-4, which generally dominate
due to their advanced capabilities. However, among the public models evaluated,
certain models such as Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B
and Zephyr-7B-Beta demonstrated promising results. These models showed
significant potential, positioning them as competitive alternatives to large
models for the task of news summarization.Summary
AI-Generated Summary