ChatPaper.aiChatPaper

ニュース要約における言語モデルの能力を解明する

Unraveling the Capabilities of Language Models in News Summarization

January 30, 2025
著者: Abdurrahman Odabaşı, Göksel Biricik
cs.AI

要旨

最近、複数の言語モデルが導入され、特に要約などの自然言語処理タスクの向上が求められている中、本研究では、20の最近の言語モデルについて包括的なベンチマークを提供し、ニュース要約タスク向けに特に小規模なモデルに焦点を当てています。本研究では、異なるスタイルで書かれ、3つの異なるデータセットで提示されるニュース記事テキストを要約する能力と効果を体系的にテストしています。具体的には、本研究ではゼロショットおよびフューショット学習設定に焦点を当て、自動評価メトリクス、人間の評価、LLMを判定基準とする包括的な評価方法を適用しています。興味深いことに、フューショット学習設定にデモンストレーション例を含めた場合、モデルの性能が向上せず、場合によっては生成された要約の品質が悪化することさえありました。この問題は、参照要約として使用されたゴールド要約の品質が低いため、モデルの性能に悪影響を及ぼしています。さらに、当研究の結果は、GPT-3.5-TurboおよびGPT-4の優れた性能を強調しています。ただし、評価された公開モデルの中で、Qwen1.5-7B、SOLAR-10.7B-Instruct-v1.0、Meta-Llama-3-8B、Zephyr-7B-Betaなどの特定のモデルは有望な結果を示しました。これらのモデルは、ニュース要約タスクにおいて大規模モデルへの競合力のある代替手段として位置付けられる潜在能力を示しています。
English
Given the recent introduction of multiple language models and the ongoing demand for improved Natural Language Processing tasks, particularly summarization, this work provides a comprehensive benchmarking of 20 recent language models, focusing on smaller ones for the news summarization task. In this work, we systematically test the capabilities and effectiveness of these models in summarizing news article texts which are written in different styles and presented in three distinct datasets. Specifically, we focus in this study on zero-shot and few-shot learning settings and we apply a robust evaluation methodology that combines different evaluation concepts including automatic metrics, human evaluation, and LLM-as-a-judge. Interestingly, including demonstration examples in the few-shot learning setting did not enhance models' performance and, in some cases, even led to worse quality of the generated summaries. This issue arises mainly due to the poor quality of the gold summaries that have been used as reference summaries, which negatively impacts the models' performance. Furthermore, our study's results highlight the exceptional performance of GPT-3.5-Turbo and GPT-4, which generally dominate due to their advanced capabilities. However, among the public models evaluated, certain models such as Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B and Zephyr-7B-Beta demonstrated promising results. These models showed significant potential, positioning them as competitive alternatives to large models for the task of news summarization.

Summary

AI-Generated Summary

PDF43February 3, 2025