ChatPaper.aiChatPaper

Génération par reclassement pour la synthèse de perspectives impartiales

Reranking-based Generation for Unbiased Perspective Summarization

June 19, 2025
Auteurs: Narutatsu Ri, Nicholas Deas, Kathleen McKeown
cs.AI

Résumé

La génération de résumés impartiaux dans des contextes réels tels que la synthèse de perspectives politiques reste une application cruciale des modèles de langage à grande échelle (LLMs). Cependant, les cadres d'évaluation existants s'appuient sur des métriques traditionnelles pour mesurer des attributs clés tels que la couverture et la fidélité sans vérifier leur applicabilité, et les efforts pour développer des systèmes de synthèse améliorés sont encore à leurs débuts. Nous comblons ces lacunes en (1) identifiant des métriques fiables pour mesurer la qualité des résumés de perspectives, et (2) en examinant l'efficacité des méthodes basées sur les LLMs au-delà de l'inférence zero-shot. Plus précisément, nous construisons un ensemble de tests pour évaluer la fiabilité des métriques en utilisant des annotations humaines et montrons que les métriques traditionnelles sont moins performantes que les métriques basées sur des modèles de langage, qui s'avèrent être des évaluateurs robustes. En utilisant ces métriques, nous démontrons que les méthodes basées sur le réordonnancement donnent des résultats solides, et que l'ajustement des préférences avec des données générées de manière synthétique et étiquetées par réordonnancement améliore encore les performances. Nos résultats visent à contribuer à l'évaluation fiable et au développement des méthodes de synthèse de perspectives.
English
Generating unbiased summaries in real-world settings such as political perspective summarization remains a crucial application of Large Language Models (LLMs). Yet, existing evaluation frameworks rely on traditional metrics for measuring key attributes such as coverage and faithfulness without verifying their applicability, and efforts to develop improved summarizers are still nascent. We address these gaps by (1) identifying reliable metrics for measuring perspective summary quality, and (2) investigating the efficacy of LLM-based methods beyond zero-shot inference. Namely, we build a test set for benchmarking metric reliability using human annotations and show that traditional metrics underperform compared to language model-based metrics, which prove to be strong evaluators. Using these metrics, we show that reranking-based methods yield strong results, and preference tuning with synthetically generated and reranking-labeled data further boosts performance. Our findings aim to contribute to the reliable evaluation and development of perspective summarization methods.
PDF42June 23, 2025