ChatPaper.aiChatPaper

Herordening-gebaseerde generatie voor onbevooroordeelde perspectiefsamenvatting

Reranking-based Generation for Unbiased Perspective Summarization

June 19, 2025
Auteurs: Narutatsu Ri, Nicholas Deas, Kathleen McKeown
cs.AI

Samenvatting

Het genereren van onbevooroordeelde samenvattingen in realistische situaties, zoals het samenvatten van politieke perspectieven, blijft een cruciale toepassing van Large Language Models (LLMs). Toch baseren bestaande evaluatiekaders zich op traditionele metrieken voor het meten van belangrijke kenmerken zoals dekking en betrouwbaarheid, zonder de toepasbaarheid ervan te verifiëren, en inspanningen om verbeterde samenvattingsmethoden te ontwikkelen zijn nog in een vroeg stadium. Wij pakken deze tekortkomingen aan door (1) betrouwbare metrieken te identificeren voor het meten van de kwaliteit van perspectiefsamenvattingen, en (2) de effectiviteit van LLM-gebaseerde methoden te onderzoeken die verder gaan dan zero-shot inferentie. Concreet bouwen we een testset voor het benchmarken van de betrouwbaarheid van metrieken met behulp van menselijke annotaties en laten we zien dat traditionele metrieken onderpresteren in vergelijking met taalmodel-gebaseerde metrieken, die zich bewezen als sterke evaluatoren. Met behulp van deze metrieken tonen we aan dat herrangschikkingsmethoden sterke resultaten opleveren, en dat voorkeursafstemming met synthetisch gegenereerde en herrangschikkingsgelabelde gegevens de prestaties verder verbetert. Onze bevindingen beogen bij te dragen aan de betrouwbare evaluatie en ontwikkeling van methoden voor perspectiefsamenvatting.
English
Generating unbiased summaries in real-world settings such as political perspective summarization remains a crucial application of Large Language Models (LLMs). Yet, existing evaluation frameworks rely on traditional metrics for measuring key attributes such as coverage and faithfulness without verifying their applicability, and efforts to develop improved summarizers are still nascent. We address these gaps by (1) identifying reliable metrics for measuring perspective summary quality, and (2) investigating the efficacy of LLM-based methods beyond zero-shot inference. Namely, we build a test set for benchmarking metric reliability using human annotations and show that traditional metrics underperform compared to language model-based metrics, which prove to be strong evaluators. Using these metrics, we show that reranking-based methods yield strong results, and preference tuning with synthetically generated and reranking-labeled data further boosts performance. Our findings aim to contribute to the reliable evaluation and development of perspective summarization methods.
PDF42June 23, 2025