Генерация на основе повторного ранжирования для объективного обобщения перспектив
Reranking-based Generation for Unbiased Perspective Summarization
June 19, 2025
Авторы: Narutatsu Ri, Nicholas Deas, Kathleen McKeown
cs.AI
Аннотация
Генерация беспристрастных сводок в реальных условиях, таких как суммирование с учетом политической перспективы, остается важным применением крупных языковых моделей (LLM). Однако существующие системы оценки полагаются на традиционные метрики для измерения ключевых атрибутов, таких как охват и достоверность, без проверки их применимости, а усилия по разработке улучшенных методов суммирования все еще находятся на начальной стадии. Мы устраняем эти пробелы, (1) определяя надежные метрики для оценки качества сводок с учетом перспективы и (2) исследуя эффективность методов на основе LLM, выходящих за рамки нулевого вывода (zero-shot inference). В частности, мы создаем тестовый набор для проверки надежности метрик с использованием аннотаций, сделанных людьми, и показываем, что традиционные метрики уступают метрикам на основе языковых моделей, которые оказываются сильными инструментами оценки. Используя эти метрики, мы демонстрируем, что методы, основанные на переранжировании, дают впечатляющие результаты, а настройка предпочтений с использованием синтетически сгенерированных и помеченных данных переранжирования дополнительно повышает производительность. Наши результаты направлены на вклад в надежную оценку и разработку методов суммирования с учетом перспективы.
English
Generating unbiased summaries in real-world settings such as political
perspective summarization remains a crucial application of Large Language
Models (LLMs). Yet, existing evaluation frameworks rely on traditional metrics
for measuring key attributes such as coverage and faithfulness without
verifying their applicability, and efforts to develop improved summarizers are
still nascent. We address these gaps by (1) identifying reliable metrics for
measuring perspective summary quality, and (2) investigating the efficacy of
LLM-based methods beyond zero-shot inference. Namely, we build a test set for
benchmarking metric reliability using human annotations and show that
traditional metrics underperform compared to language model-based metrics,
which prove to be strong evaluators. Using these metrics, we show that
reranking-based methods yield strong results, and preference tuning with
synthetically generated and reranking-labeled data further boosts performance.
Our findings aim to contribute to the reliable evaluation and development of
perspective summarization methods.