Prometheus 2: Ein Open-Source-Sprachmodell, das auf die Bewertung anderer Sprachmodelle spezialisiert ist.

Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

May 2, 2024
Autoren: Seungone Kim, Juyoung Suk, Shayne Longpre, Bill Yuchen Lin, Jamin Shin, Sean Welleck, Graham Neubig, Moontae Lee, Kyungjae Lee, Minjoon Seo
cs.AI

Zusammenfassung

Proprietäre Sprachmodelle wie GPT-4 werden häufig zur Bewertung der Qualität von Antworten aus verschiedenen Sprachmodellen eingesetzt. Bedenken hinsichtlich Transparenz, Steuerbarkeit und Erschwinglichkeit motivieren jedoch nachdrücklich die Entwicklung von Open-Source-Sprachmodellen, die auf Bewertungen spezialisiert sind. Andererseits weisen bestehende offene Bewertungssprachmodelle wesentliche Mängel auf: 1) sie vergeben Bewertungen, die erheblich von denen abweichen, die von Menschen vergeben werden, und 2) ihnen fehlt die Flexibilität, sowohl direkte Bewertungen als auch paarweise Rangfolgen, die beiden gängigsten Formen der Bewertung, durchzuführen. Darüber hinaus besitzen sie nicht die Fähigkeit, auf der Grundlage benutzerdefinierter Bewertungskriterien zu bewerten, sondern konzentrieren sich stattdessen auf allgemeine Attribute wie Hilfreichkeit und Unbedenklichkeit. Um diese Probleme zu lösen, stellen wir Prometheus 2 vor, ein leistungsfähigeres Bewertungssprachmodell als sein Vorgänger, das menschlichen und GPT-4-Beurteilungen eng nachempfunden ist. Darüber hinaus ist es in der Lage, sowohl direkte Bewertungen als auch paarweise Rangfolgen in Verbindung mit benutzerdefinierten Bewertungskriterien zu verarbeiten. Auf vier direkten Bewertungsbenchmarks und vier paarweisen Rangfolgenbenchmarks erzielt Prometheus 2 die höchste Korrelation und Übereinstimmung mit Menschen und proprietären LM-Richtern unter allen getesteten offenen Bewertungssprachmodellen. Unsere Modelle, der Code und die Daten sind alle öffentlich verfügbar unter https://github.com/prometheus-eval/prometheus-eval.
English
Proprietary LMs such as GPT-4 are often employed to assess the quality of responses from various LMs. However, concerns including transparency, controllability, and affordability strongly motivate the development of open-source LMs specialized in evaluations. On the other hand, existing open evaluator LMs exhibit critical shortcomings: 1) they issue scores that significantly diverge from those assigned by humans, and 2) they lack the flexibility to perform both direct assessment and pairwise ranking, the two most prevalent forms of assessment. Additionally, they do not possess the ability to evaluate based on custom evaluation criteria, focusing instead on general attributes like helpfulness and harmlessness. To address these issues, we introduce Prometheus 2, a more powerful evaluator LM than its predecessor that closely mirrors human and GPT-4 judgements. Moreover, it is capable of processing both direct assessment and pair-wise ranking formats grouped with a user-defined evaluation criteria. On four direct assessment benchmarks and four pairwise ranking benchmarks, Prometheus 2 scores the highest correlation and agreement with humans and proprietary LM judges among all tested open evaluator LMs. Our models, code, and data are all publicly available at https://github.com/prometheus-eval/prometheus-eval.

Summary

AI-Generated Summary

PDF12311December 15, 2024