Génération par reclassement pour la synthèse de perspectives impartiales
Reranking-based Generation for Unbiased Perspective Summarization
June 19, 2025
Auteurs: Narutatsu Ri, Nicholas Deas, Kathleen McKeown
cs.AI
Résumé
La génération de résumés impartiaux dans des contextes réels tels que la synthèse de perspectives politiques reste une application cruciale des modèles de langage à grande échelle (LLMs). Cependant, les cadres d'évaluation existants s'appuient sur des métriques traditionnelles pour mesurer des attributs clés tels que la couverture et la fidélité sans vérifier leur applicabilité, et les efforts pour développer des systèmes de synthèse améliorés sont encore à leurs débuts. Nous comblons ces lacunes en (1) identifiant des métriques fiables pour mesurer la qualité des résumés de perspectives, et (2) en examinant l'efficacité des méthodes basées sur les LLMs au-delà de l'inférence zero-shot. Plus précisément, nous construisons un ensemble de tests pour évaluer la fiabilité des métriques en utilisant des annotations humaines et montrons que les métriques traditionnelles sont moins performantes que les métriques basées sur des modèles de langage, qui s'avèrent être des évaluateurs robustes. En utilisant ces métriques, nous démontrons que les méthodes basées sur le réordonnancement donnent des résultats solides, et que l'ajustement des préférences avec des données générées de manière synthétique et étiquetées par réordonnancement améliore encore les performances. Nos résultats visent à contribuer à l'évaluation fiable et au développement des méthodes de synthèse de perspectives.
English
Generating unbiased summaries in real-world settings such as political
perspective summarization remains a crucial application of Large Language
Models (LLMs). Yet, existing evaluation frameworks rely on traditional metrics
for measuring key attributes such as coverage and faithfulness without
verifying their applicability, and efforts to develop improved summarizers are
still nascent. We address these gaps by (1) identifying reliable metrics for
measuring perspective summary quality, and (2) investigating the efficacy of
LLM-based methods beyond zero-shot inference. Namely, we build a test set for
benchmarking metric reliability using human annotations and show that
traditional metrics underperform compared to language model-based metrics,
which prove to be strong evaluators. Using these metrics, we show that
reranking-based methods yield strong results, and preference tuning with
synthetically generated and reranking-labeled data further boosts performance.
Our findings aim to contribute to the reliable evaluation and development of
perspective summarization methods.