ChatPaper.aiChatPaper

Entschlüsselung der Fähigkeiten von Sprachmodellen in der Nachrichtenzusammenfassung

Unraveling the Capabilities of Language Models in News Summarization

January 30, 2025
Autoren: Abdurrahman Odabaşı, Göksel Biricik
cs.AI

Zusammenfassung

Angesichts der jüngsten Einführung mehrerer Sprachmodelle und der fortwährenden Nachfrage nach verbesserten Aufgaben zur natürlichen Sprachverarbeitung, insbesondere Zusammenfassungen, bietet diese Arbeit eine umfassende Bewertung von 20 aktuellen Sprachmodellen, wobei der Fokus auf kleineren Modellen für die Aufgabe der Nachrichtenzusammenfassung liegt. In dieser Arbeit testen wir systematisch die Fähigkeiten und die Wirksamkeit dieser Modelle bei der Zusammenfassung von Nachrichtenartikeln, die in verschiedenen Stilen verfasst sind und in drei unterschiedlichen Datensätzen präsentiert werden. Speziell konzentrieren wir uns in dieser Studie auf die Einstellungen des Zero-Shot- und Few-Shot-Lernens und wenden eine robuste Evaluierungsmethodik an, die verschiedene Evaluierungskonzepte kombiniert, einschließlich automatischer Metriken, menschlicher Bewertung und LLM-als-Richter. Interessanterweise verbesserten die Einbeziehung von Demonstrationsbeispielen in der Few-Shot-Lernumgebung nicht die Leistung der Modelle und führten in einigen Fällen sogar zu einer schlechteren Qualität der generierten Zusammenfassungen. Dieses Problem entsteht hauptsächlich aufgrund der schlechten Qualität der Goldzusammenfassungen, die als Referenzzusammenfassungen verwendet wurden, was sich negativ auf die Leistung der Modelle auswirkt. Darüber hinaus heben die Ergebnisse unserer Studie die außergewöhnliche Leistung von GPT-3.5-Turbo und GPT-4 hervor, die im Allgemeinen aufgrund ihrer fortgeschrittenen Fähigkeiten dominieren. Unter den bewerteten öffentlichen Modellen zeigten jedoch bestimmte Modelle wie Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B und Zephyr-7B-Beta vielversprechende Ergebnisse. Diese Modelle zeigten ein signifikantes Potenzial und positionieren sie als wettbewerbsfähige Alternativen zu großen Modellen für die Aufgabe der Nachrichtenzusammenfassung.
English
Given the recent introduction of multiple language models and the ongoing demand for improved Natural Language Processing tasks, particularly summarization, this work provides a comprehensive benchmarking of 20 recent language models, focusing on smaller ones for the news summarization task. In this work, we systematically test the capabilities and effectiveness of these models in summarizing news article texts which are written in different styles and presented in three distinct datasets. Specifically, we focus in this study on zero-shot and few-shot learning settings and we apply a robust evaluation methodology that combines different evaluation concepts including automatic metrics, human evaluation, and LLM-as-a-judge. Interestingly, including demonstration examples in the few-shot learning setting did not enhance models' performance and, in some cases, even led to worse quality of the generated summaries. This issue arises mainly due to the poor quality of the gold summaries that have been used as reference summaries, which negatively impacts the models' performance. Furthermore, our study's results highlight the exceptional performance of GPT-3.5-Turbo and GPT-4, which generally dominate due to their advanced capabilities. However, among the public models evaluated, certain models such as Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B and Zephyr-7B-Beta demonstrated promising results. These models showed significant potential, positioning them as competitive alternatives to large models for the task of news summarization.

Summary

AI-Generated Summary

PDF43February 3, 2025