Prometheus 2: Ein Open-Source-Sprachmodell, das auf die Bewertung anderer Sprachmodelle spezialisiert ist.Prometheus 2: An Open Source Language Model Specialized in Evaluating
Other Language Models
Proprietäre Sprachmodelle wie GPT-4 werden häufig zur Bewertung der Qualität von Antworten aus verschiedenen Sprachmodellen eingesetzt. Bedenken hinsichtlich Transparenz, Steuerbarkeit und Erschwinglichkeit motivieren jedoch nachdrücklich die Entwicklung von Open-Source-Sprachmodellen, die auf Bewertungen spezialisiert sind. Andererseits weisen bestehende offene Bewertungssprachmodelle wesentliche Mängel auf: 1) sie vergeben Bewertungen, die erheblich von denen abweichen, die von Menschen vergeben werden, und 2) ihnen fehlt die Flexibilität, sowohl direkte Bewertungen als auch paarweise Rangfolgen, die beiden gängigsten Formen der Bewertung, durchzuführen. Darüber hinaus besitzen sie nicht die Fähigkeit, auf der Grundlage benutzerdefinierter Bewertungskriterien zu bewerten, sondern konzentrieren sich stattdessen auf allgemeine Attribute wie Hilfreichkeit und Unbedenklichkeit. Um diese Probleme zu lösen, stellen wir Prometheus 2 vor, ein leistungsfähigeres Bewertungssprachmodell als sein Vorgänger, das menschlichen und GPT-4-Beurteilungen eng nachempfunden ist. Darüber hinaus ist es in der Lage, sowohl direkte Bewertungen als auch paarweise Rangfolgen in Verbindung mit benutzerdefinierten Bewertungskriterien zu verarbeiten. Auf vier direkten Bewertungsbenchmarks und vier paarweisen Rangfolgenbenchmarks erzielt Prometheus 2 die höchste Korrelation und Übereinstimmung mit Menschen und proprietären LM-Richtern unter allen getesteten offenen Bewertungssprachmodellen. Unsere Modelle, der Code und die Daten sind alle öffentlich verfügbar unter https://github.com/prometheus-eval/prometheus-eval.