Generación basada en reordenamiento para la síntesis de perspectivas imparciales

Resumen

La generación de resúmenes imparciales en entornos del mundo real, como la síntesis de perspectivas políticas, sigue siendo una aplicación crucial de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés). Sin embargo, los marcos de evaluación existentes dependen de métricas tradicionales para medir atributos clave como la cobertura y la fidelidad, sin verificar su aplicabilidad, y los esfuerzos para desarrollar resumidores mejorados aún están en etapas incipientes. Abordamos estas brechas mediante (1) la identificación de métricas confiables para medir la calidad de los resúmenes de perspectivas, y (2) la investigación de la eficacia de los métodos basados en LLMs más allá de la inferencia de cero disparos. Específicamente, construimos un conjunto de pruebas para evaluar la confiabilidad de las métricas utilizando anotaciones humanas y demostramos que las métricas tradicionales tienen un rendimiento inferior en comparación con las métricas basadas en modelos de lenguaje, que resultan ser evaluadores sólidos. Utilizando estas métricas, mostramos que los métodos basados en reordenamiento producen resultados sólidos, y que el ajuste de preferencias con datos generados sintéticamente y etiquetados mediante reordenamiento mejora aún más el rendimiento. Nuestros hallazgos tienen como objetivo contribuir a la evaluación confiable y al desarrollo de métodos de síntesis de perspectivas.

English

Generating unbiased summaries in real-world settings such as political perspective summarization remains a crucial application of Large Language Models (LLMs). Yet, existing evaluation frameworks rely on traditional metrics for measuring key attributes such as coverage and faithfulness without verifying their applicability, and efforts to develop improved summarizers are still nascent. We address these gaps by (1) identifying reliable metrics for measuring perspective summary quality, and (2) investigating the efficacy of LLM-based methods beyond zero-shot inference. Namely, we build a test set for benchmarking metric reliability using human annotations and show that traditional metrics underperform compared to language model-based metrics, which prove to be strong evaluators. Using these metrics, we show that reranking-based methods yield strong results, and preference tuning with synthetically generated and reranking-labeled data further boosts performance. Our findings aim to contribute to the reliable evaluation and development of perspective summarization methods.

Generación basada en reordenamiento para la síntesis de perspectivas imparciales

Reranking-based Generation for Unbiased Perspective Summarization

Resumen

Support