Generazione basata su riordinamento per la sintesi imparziale delle prospettive
Reranking-based Generation for Unbiased Perspective Summarization
June 19, 2025
Autori: Narutatsu Ri, Nicholas Deas, Kathleen McKeown
cs.AI
Abstract
La generazione di riassunti imparziali in contesti reali come la sintesi di prospettive politiche rimane un'applicazione cruciale dei Modelli Linguistici di Grande Scala (LLM). Tuttavia, i framework di valutazione esistenti si basano su metriche tradizionali per misurare attributi chiave come copertura e fedeltà senza verificarne l'applicabilità, e gli sforzi per sviluppare sistemi di sintesi migliorati sono ancora agli inizi. Affrontiamo queste lacune (1) identificando metriche affidabili per misurare la qualità dei riassunti prospettici e (2) investigando l'efficacia dei metodi basati su LLM oltre l'inferenza zero-shot. In particolare, costruiamo un set di test per valutare l'affidabilità delle metriche utilizzando annotazioni umane e dimostriamo che le metriche tradizionali sono inferiori rispetto a quelle basate su modelli linguistici, che si rivelano valutatori robusti. Utilizzando queste metriche, mostriamo che i metodi basati su riordinamento producono risultati solidi e che l'ottimizzazione delle preferenze con dati generati sinteticamente ed etichettati tramite riordinamento migliora ulteriormente le prestazioni. I nostri risultati mirano a contribuire alla valutazione affidabile e allo sviluppo di metodi di sintesi prospettica.
English
Generating unbiased summaries in real-world settings such as political
perspective summarization remains a crucial application of Large Language
Models (LLMs). Yet, existing evaluation frameworks rely on traditional metrics
for measuring key attributes such as coverage and faithfulness without
verifying their applicability, and efforts to develop improved summarizers are
still nascent. We address these gaps by (1) identifying reliable metrics for
measuring perspective summary quality, and (2) investigating the efficacy of
LLM-based methods beyond zero-shot inference. Namely, we build a test set for
benchmarking metric reliability using human annotations and show that
traditional metrics underperform compared to language model-based metrics,
which prove to be strong evaluators. Using these metrics, we show that
reranking-based methods yield strong results, and preference tuning with
synthetically generated and reranking-labeled data further boosts performance.
Our findings aim to contribute to the reliable evaluation and development of
perspective summarization methods.