뉴스 요약에서 언어 모델의 능력 펼치기
Unraveling the Capabilities of Language Models in News Summarization
January 30, 2025
저자: Abdurrahman Odabaşı, Göksel Biricik
cs.AI
초록
최근 다언어 모델의 다수 도입과 계속되는 자연어 처리 작업, 특히 요약 작업의 향상된 수요를 고려할 때, 본 연구는 뉴스 요약 작업을 위해 작은 규모의 20가지 최근 언어 모델에 대한 포괄적인 벤치마킹을 제공합니다. 본 연구에서는 서로 다른 스타일로 작성된 뉴스 기사 텍스트를 요약하는 데 이러한 모델의 능력과 효과를 체계적으로 테스트하였으며, 세 가지 다른 데이터셋에 제시되었습니다. 구체적으로, 본 연구에서는 제로샷 및 퓨샷 학습 설정에 초점을 맞추었으며, 자동 메트릭, 인간 평가 및 LLM-판사를 포함한 다양한 평가 개념을 결합한 견고한 평가 방법론을 적용하였습니다. 흥미로운 점은 퓨샷 학습 설정에서 데모 예제를 포함시키는 것이 모델의 성능을 향상시키지 않았으며, 경우에 따라 생성된 요약의 품질을 떨어뜨리기도 하였습니다. 이 문제는 주로 참조 요약으로 사용된 골드 요약의 품질이 낮아서 모델의 성능에 부정적인 영향을 미치기 때문에 발생합니다. 더 나아가, 본 연구 결과는 GPT-3.5-Turbo 및 GPT-4의 우수한 성능을 강조하였으며, 이러한 모델은 일반적으로 고급 능력으로 인해 우세합니다. 그러나 평가된 공개 모델 중에서 Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B 및 Zephyr-7B-Beta와 같은 특정 모델들이 유망한 결과를 보였습니다. 이러한 모델들은 상당한 잠재력을 보여주어 뉴스 요약 작업에 대한 대규모 모델에 대항할 수 있는 경쟁력 있는 대안으로 자리 잡을 수 있습니다.
English
Given the recent introduction of multiple language models and the ongoing
demand for improved Natural Language Processing tasks, particularly
summarization, this work provides a comprehensive benchmarking of 20 recent
language models, focusing on smaller ones for the news summarization task. In
this work, we systematically test the capabilities and effectiveness of these
models in summarizing news article texts which are written in different styles
and presented in three distinct datasets. Specifically, we focus in this study
on zero-shot and few-shot learning settings and we apply a robust evaluation
methodology that combines different evaluation concepts including automatic
metrics, human evaluation, and LLM-as-a-judge. Interestingly, including
demonstration examples in the few-shot learning setting did not enhance models'
performance and, in some cases, even led to worse quality of the generated
summaries. This issue arises mainly due to the poor quality of the gold
summaries that have been used as reference summaries, which negatively impacts
the models' performance. Furthermore, our study's results highlight the
exceptional performance of GPT-3.5-Turbo and GPT-4, which generally dominate
due to their advanced capabilities. However, among the public models evaluated,
certain models such as Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B
and Zephyr-7B-Beta demonstrated promising results. These models showed
significant potential, positioning them as competitive alternatives to large
models for the task of news summarization.Summary
AI-Generated Summary