ChatPaper.aiChatPaper

Раскрывая Возможности Языковых Моделей в Суммаризации Новостей

Unraveling the Capabilities of Language Models in News Summarization

January 30, 2025
Авторы: Abdurrahman Odabaşı, Göksel Biricik
cs.AI

Аннотация

Учитывая недавнее появление нескольких языковых моделей и постоянный спрос на улучшение задач обработки естественного языка, особенно суммаризации, данная работа предоставляет всестороннюю оценку 20 недавних языковых моделей, сосредотачиваясь на более компактных для задачи суммаризации новостей. В данной работе мы систематически тестируем возможности и эффективность этих моделей в суммаризации текстов новостных статей, написанных в различных стилях и представленных в трех различных наборах данных. В частности, мы фокусируемся в данном исследовании на настройках нулевого и малого количества обучающих примеров и применяем надежную методологию оценки, объединяющую различные концепции оценки, включая автоматические метрики, оценку человеком и LLM-в-качестве-судьи. Интересно, что включение демонстрационных примеров в настройке обучения с малым количеством обучающих примеров не улучшило производительность моделей и, в некоторых случаях, даже привело к ухудшению качества сгенерированных резюме. Эта проблема в основном возникает из-за низкого качества золотых резюме, которые использовались в качестве эталонных резюме, что негативно сказывается на производительности моделей. Более того, результаты нашего исследования подчеркивают исключительную производительность GPT-3.5-Turbo и GPT-4, которые в целом доминируют благодаря своим передовым возможностям. Однако среди оцененных общедоступных моделей определенные модели, такие как Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B и Zephyr-7B-Beta, продемонстрировали многообещающие результаты. Эти модели показали значительный потенциал, позиционируя их как конкурентоспособные альтернативы крупным моделям для задачи суммаризации новостей.
English
Given the recent introduction of multiple language models and the ongoing demand for improved Natural Language Processing tasks, particularly summarization, this work provides a comprehensive benchmarking of 20 recent language models, focusing on smaller ones for the news summarization task. In this work, we systematically test the capabilities and effectiveness of these models in summarizing news article texts which are written in different styles and presented in three distinct datasets. Specifically, we focus in this study on zero-shot and few-shot learning settings and we apply a robust evaluation methodology that combines different evaluation concepts including automatic metrics, human evaluation, and LLM-as-a-judge. Interestingly, including demonstration examples in the few-shot learning setting did not enhance models' performance and, in some cases, even led to worse quality of the generated summaries. This issue arises mainly due to the poor quality of the gold summaries that have been used as reference summaries, which negatively impacts the models' performance. Furthermore, our study's results highlight the exceptional performance of GPT-3.5-Turbo and GPT-4, which generally dominate due to their advanced capabilities. However, among the public models evaluated, certain models such as Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B and Zephyr-7B-Beta demonstrated promising results. These models showed significant potential, positioning them as competitive alternatives to large models for the task of news summarization.

Summary

AI-Generated Summary

PDF43February 3, 2025