Neuordnung-basierte Generierung für unvoreingenommene Perspektivenzusammenfassung

papers.abstract

Die Erstellung unvoreingenommener Zusammenfassungen in realen Anwendungsfällen wie der politischen Perspektivenzusammenfassung bleibt eine entscheidende Anwendung von Large Language Models (LLMs). Bislang stützen sich bestehende Evaluierungsrahmen jedoch auf traditionelle Metriken zur Messung wichtiger Attribute wie Abdeckung und Treue, ohne deren Anwendbarkeit zu überprüfen, und Bemühungen zur Entwicklung verbesserter Zusammenfassungssysteme sind noch in den Anfängen. Wir schließen diese Lücken, indem wir (1) zuverlässige Metriken zur Messung der Qualität von Perspektivenzusammenfassungen identifizieren und (2) die Wirksamkeit von LLM-basierten Methoden über Zero-Shot-Inferenz hinaus untersuchen. Konkret erstellen wir einen Testdatensatz zur Bewertung der Zuverlässigkeit von Metriken mithilfe menschlicher Annotationen und zeigen, dass traditionelle Metriken im Vergleich zu sprachmodellbasierten Metriken unterlegen sind, die sich als starke Bewertungswerkzeuge erweisen. Mit diesen Metriken demonstrieren wir, dass Methoden basierend auf Neubewertung (Reranking) robuste Ergebnisse liefern und dass die Feinabstimmung (Preference Tuning) mit synthetisch generierten und durch Reranking gelabelten Daten die Leistung weiter steigert. Unsere Erkenntnisse zielen darauf ab, zu einer zuverlässigen Bewertung und Entwicklung von Methoden zur Perspektivenzusammenfassung beizutragen.

English

Generating unbiased summaries in real-world settings such as political perspective summarization remains a crucial application of Large Language Models (LLMs). Yet, existing evaluation frameworks rely on traditional metrics for measuring key attributes such as coverage and faithfulness without verifying their applicability, and efforts to develop improved summarizers are still nascent. We address these gaps by (1) identifying reliable metrics for measuring perspective summary quality, and (2) investigating the efficacy of LLM-based methods beyond zero-shot inference. Namely, we build a test set for benchmarking metric reliability using human annotations and show that traditional metrics underperform compared to language model-based metrics, which prove to be strong evaluators. Using these metrics, we show that reranking-based methods yield strong results, and preference tuning with synthetically generated and reranking-labeled data further boosts performance. Our findings aim to contribute to the reliable evaluation and development of perspective summarization methods.

Neuordnung-basierte Generierung für unvoreingenommene Perspektivenzusammenfassung

Reranking-based Generation for Unbiased Perspective Summarization

papers.abstract

Support