Generación basada en reordenamiento para la síntesis de perspectivas imparciales
Reranking-based Generation for Unbiased Perspective Summarization
June 19, 2025
Autores: Narutatsu Ri, Nicholas Deas, Kathleen McKeown
cs.AI
Resumen
La generación de resúmenes imparciales en entornos del mundo real, como la síntesis de perspectivas políticas, sigue siendo una aplicación crucial de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés). Sin embargo, los marcos de evaluación existentes dependen de métricas tradicionales para medir atributos clave como la cobertura y la fidelidad, sin verificar su aplicabilidad, y los esfuerzos para desarrollar resumidores mejorados aún están en etapas incipientes. Abordamos estas brechas mediante (1) la identificación de métricas confiables para medir la calidad de los resúmenes de perspectivas, y (2) la investigación de la eficacia de los métodos basados en LLMs más allá de la inferencia de cero disparos. Específicamente, construimos un conjunto de pruebas para evaluar la confiabilidad de las métricas utilizando anotaciones humanas y demostramos que las métricas tradicionales tienen un rendimiento inferior en comparación con las métricas basadas en modelos de lenguaje, que resultan ser evaluadores sólidos. Utilizando estas métricas, mostramos que los métodos basados en reordenamiento producen resultados sólidos, y que el ajuste de preferencias con datos generados sintéticamente y etiquetados mediante reordenamiento mejora aún más el rendimiento. Nuestros hallazgos tienen como objetivo contribuir a la evaluación confiable y al desarrollo de métodos de síntesis de perspectivas.
English
Generating unbiased summaries in real-world settings such as political
perspective summarization remains a crucial application of Large Language
Models (LLMs). Yet, existing evaluation frameworks rely on traditional metrics
for measuring key attributes such as coverage and faithfulness without
verifying their applicability, and efforts to develop improved summarizers are
still nascent. We address these gaps by (1) identifying reliable metrics for
measuring perspective summary quality, and (2) investigating the efficacy of
LLM-based methods beyond zero-shot inference. Namely, we build a test set for
benchmarking metric reliability using human annotations and show that
traditional metrics underperform compared to language model-based metrics,
which prove to be strong evaluators. Using these metrics, we show that
reranking-based methods yield strong results, and preference tuning with
synthetically generated and reranking-labeled data further boosts performance.
Our findings aim to contribute to the reliable evaluation and development of
perspective summarization methods.