ChatPaper.aiChatPaper

Geração Baseada em Reordenamento para Sumarização de Perspectivas Imparciais

Reranking-based Generation for Unbiased Perspective Summarization

June 19, 2025
Autores: Narutatsu Ri, Nicholas Deas, Kathleen McKeown
cs.AI

Resumo

A geração de resumos imparciais em cenários do mundo real, como a sumarização de perspectivas políticas, continua sendo uma aplicação crucial dos Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês). No entanto, os frameworks de avaliação existentes dependem de métricas tradicionais para medir atributos-chave, como cobertura e fidelidade, sem verificar sua aplicabilidade, e os esforços para desenvolver sumarizadores aprimorados ainda estão em estágio inicial. Nós abordamos essas lacunas (1) identificando métricas confiáveis para medir a qualidade de resumos de perspectivas e (2) investigando a eficácia de métodos baseados em LLMs além da inferência zero-shot. Especificamente, construímos um conjunto de testes para avaliar a confiabilidade das métricas usando anotações humanas e mostramos que as métricas tradicionais têm desempenho inferior em comparação com métricas baseadas em modelos de linguagem, que se mostram avaliadores robustos. Utilizando essas métricas, demonstramos que métodos baseados em reranking produzem resultados sólidos, e o ajuste de preferências com dados gerados sinteticamente e rotulados por reranking melhora ainda mais o desempenho. Nossas descobertas visam contribuir para a avaliação confiável e o desenvolvimento de métodos de sumarização de perspectivas.
English
Generating unbiased summaries in real-world settings such as political perspective summarization remains a crucial application of Large Language Models (LLMs). Yet, existing evaluation frameworks rely on traditional metrics for measuring key attributes such as coverage and faithfulness without verifying their applicability, and efforts to develop improved summarizers are still nascent. We address these gaps by (1) identifying reliable metrics for measuring perspective summary quality, and (2) investigating the efficacy of LLM-based methods beyond zero-shot inference. Namely, we build a test set for benchmarking metric reliability using human annotations and show that traditional metrics underperform compared to language model-based metrics, which prove to be strong evaluators. Using these metrics, we show that reranking-based methods yield strong results, and preference tuning with synthetically generated and reranking-labeled data further boosts performance. Our findings aim to contribute to the reliable evaluation and development of perspective summarization methods.
PDF42June 23, 2025