Svelare le Capacità dei Modelli Linguistici nella Riassunzione di Notizie

Abstract

Data l'introduzione recente di diversi modelli linguistici e la costante richiesta di miglioramenti nelle attività di Elaborazione del Linguaggio Naturale, in particolare nella sintesi, questo lavoro fornisce una valutazione completa di 20 modelli linguistici recenti, concentrandosi su quelli più piccoli per l'attività di sintesi delle notizie. In questo studio, testiamo sistematicamente le capacità e l'efficacia di questi modelli nel riassumere testi di articoli di notizie scritti in stili diversi e presentati in tre set di dati distinti. In particolare, ci concentriamo in questo studio sulle impostazioni di apprendimento zero-shot e few-shot e applichiamo una metodologia di valutazione robusta che combina diversi concetti di valutazione, inclusi metriche automatiche, valutazione umana e LLM-come-giudice. È interessante notare che includere esempi dimostrativi nell'impostazione di apprendimento few-shot non ha migliorato le prestazioni dei modelli e, in alcuni casi, ha addirittura portato a una qualità peggiore dei riassunti generati. Questo problema sorge principalmente a causa della scarsa qualità dei riassunti di riferimento utilizzati, che influisce negativamente sulle prestazioni dei modelli. Inoltre, i risultati del nostro studio evidenziano le eccezionali prestazioni di GPT-3.5-Turbo e GPT-4, che generalmente dominano grazie alle loro capacità avanzate. Tuttavia, tra i modelli pubblici valutati, alcuni modelli come Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B e Zephyr-7B-Beta hanno mostrato risultati promettenti. Questi modelli hanno dimostrato un potenziale significativo, posizionandoli come alternative competitive ai modelli più grandi per l'attività di sintesi delle notizie.

English

Given the recent introduction of multiple language models and the ongoing demand for improved Natural Language Processing tasks, particularly summarization, this work provides a comprehensive benchmarking of 20 recent language models, focusing on smaller ones for the news summarization task. In this work, we systematically test the capabilities and effectiveness of these models in summarizing news article texts which are written in different styles and presented in three distinct datasets. Specifically, we focus in this study on zero-shot and few-shot learning settings and we apply a robust evaluation methodology that combines different evaluation concepts including automatic metrics, human evaluation, and LLM-as-a-judge. Interestingly, including demonstration examples in the few-shot learning setting did not enhance models' performance and, in some cases, even led to worse quality of the generated summaries. This issue arises mainly due to the poor quality of the gold summaries that have been used as reference summaries, which negatively impacts the models' performance. Furthermore, our study's results highlight the exceptional performance of GPT-3.5-Turbo and GPT-4, which generally dominate due to their advanced capabilities. However, among the public models evaluated, certain models such as Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B and Zephyr-7B-Beta demonstrated promising results. These models showed significant potential, positioning them as competitive alternatives to large models for the task of news summarization.

Svelare le Capacità dei Modelli Linguistici nella Riassunzione di Notizie

Unraveling the Capabilities of Language Models in News Summarization

Abstract

Support