Prometheus 2: Ein Open-Source-Sprachmodell, das auf die Bewertung anderer Sprachmodelle spezialisiert ist.
Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models
May 2, 2024
Autoren: Seungone Kim, Juyoung Suk, Shayne Longpre, Bill Yuchen Lin, Jamin Shin, Sean Welleck, Graham Neubig, Moontae Lee, Kyungjae Lee, Minjoon Seo
cs.AI
Zusammenfassung
Proprietäre Sprachmodelle wie GPT-4 werden häufig zur Bewertung der Qualität von Antworten aus verschiedenen Sprachmodellen eingesetzt. Bedenken hinsichtlich Transparenz, Steuerbarkeit und Erschwinglichkeit motivieren jedoch nachdrücklich die Entwicklung von Open-Source-Sprachmodellen, die auf Bewertungen spezialisiert sind. Andererseits weisen bestehende offene Bewertungssprachmodelle wesentliche Mängel auf: 1) sie vergeben Bewertungen, die erheblich von denen abweichen, die von Menschen vergeben werden, und 2) ihnen fehlt die Flexibilität, sowohl direkte Bewertungen als auch paarweise Rangfolgen, die beiden gängigsten Formen der Bewertung, durchzuführen. Darüber hinaus besitzen sie nicht die Fähigkeit, auf der Grundlage benutzerdefinierter Bewertungskriterien zu bewerten, sondern konzentrieren sich stattdessen auf allgemeine Attribute wie Hilfreichkeit und Unbedenklichkeit. Um diese Probleme zu lösen, stellen wir Prometheus 2 vor, ein leistungsfähigeres Bewertungssprachmodell als sein Vorgänger, das menschlichen und GPT-4-Beurteilungen eng nachempfunden ist. Darüber hinaus ist es in der Lage, sowohl direkte Bewertungen als auch paarweise Rangfolgen in Verbindung mit benutzerdefinierten Bewertungskriterien zu verarbeiten. Auf vier direkten Bewertungsbenchmarks und vier paarweisen Rangfolgenbenchmarks erzielt Prometheus 2 die höchste Korrelation und Übereinstimmung mit Menschen und proprietären LM-Richtern unter allen getesteten offenen Bewertungssprachmodellen. Unsere Modelle, der Code und die Daten sind alle öffentlich verfügbar unter https://github.com/prometheus-eval/prometheus-eval.
English
Proprietary LMs such as GPT-4 are often employed to assess the quality of
responses from various LMs. However, concerns including transparency,
controllability, and affordability strongly motivate the development of
open-source LMs specialized in evaluations. On the other hand, existing open
evaluator LMs exhibit critical shortcomings: 1) they issue scores that
significantly diverge from those assigned by humans, and 2) they lack the
flexibility to perform both direct assessment and pairwise ranking, the two
most prevalent forms of assessment. Additionally, they do not possess the
ability to evaluate based on custom evaluation criteria, focusing instead on
general attributes like helpfulness and harmlessness. To address these issues,
we introduce Prometheus 2, a more powerful evaluator LM than its predecessor
that closely mirrors human and GPT-4 judgements. Moreover, it is capable of
processing both direct assessment and pair-wise ranking formats grouped with a
user-defined evaluation criteria. On four direct assessment benchmarks and four
pairwise ranking benchmarks, Prometheus 2 scores the highest correlation and
agreement with humans and proprietary LM judges among all tested open evaluator
LMs. Our models, code, and data are all publicly available at
https://github.com/prometheus-eval/prometheus-eval.Summary
AI-Generated Summary