ニュース要約における言語モデルの能力を解明する
Unraveling the Capabilities of Language Models in News Summarization
January 30, 2025
著者: Abdurrahman Odabaşı, Göksel Biricik
cs.AI
要旨
最近、複数の言語モデルが導入され、特に要約などの自然言語処理タスクの向上が求められている中、本研究では、20の最近の言語モデルについて包括的なベンチマークを提供し、ニュース要約タスク向けに特に小規模なモデルに焦点を当てています。本研究では、異なるスタイルで書かれ、3つの異なるデータセットで提示されるニュース記事テキストを要約する能力と効果を体系的にテストしています。具体的には、本研究ではゼロショットおよびフューショット学習設定に焦点を当て、自動評価メトリクス、人間の評価、LLMを判定基準とする包括的な評価方法を適用しています。興味深いことに、フューショット学習設定にデモンストレーション例を含めた場合、モデルの性能が向上せず、場合によっては生成された要約の品質が悪化することさえありました。この問題は、参照要約として使用されたゴールド要約の品質が低いため、モデルの性能に悪影響を及ぼしています。さらに、当研究の結果は、GPT-3.5-TurboおよびGPT-4の優れた性能を強調しています。ただし、評価された公開モデルの中で、Qwen1.5-7B、SOLAR-10.7B-Instruct-v1.0、Meta-Llama-3-8B、Zephyr-7B-Betaなどの特定のモデルは有望な結果を示しました。これらのモデルは、ニュース要約タスクにおいて大規模モデルへの競合力のある代替手段として位置付けられる潜在能力を示しています。
English
Given the recent introduction of multiple language models and the ongoing
demand for improved Natural Language Processing tasks, particularly
summarization, this work provides a comprehensive benchmarking of 20 recent
language models, focusing on smaller ones for the news summarization task. In
this work, we systematically test the capabilities and effectiveness of these
models in summarizing news article texts which are written in different styles
and presented in three distinct datasets. Specifically, we focus in this study
on zero-shot and few-shot learning settings and we apply a robust evaluation
methodology that combines different evaluation concepts including automatic
metrics, human evaluation, and LLM-as-a-judge. Interestingly, including
demonstration examples in the few-shot learning setting did not enhance models'
performance and, in some cases, even led to worse quality of the generated
summaries. This issue arises mainly due to the poor quality of the gold
summaries that have been used as reference summaries, which negatively impacts
the models' performance. Furthermore, our study's results highlight the
exceptional performance of GPT-3.5-Turbo and GPT-4, which generally dominate
due to their advanced capabilities. However, among the public models evaluated,
certain models such as Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B
and Zephyr-7B-Beta demonstrated promising results. These models showed
significant potential, positioning them as competitive alternatives to large
models for the task of news summarization.Summary
AI-Generated Summary