Прометей 2: открытая модель языка, специализированная на оценке других моделей языкаPrometheus 2: An Open Source Language Model Specialized in Evaluating
Other Language Models
Проприетарные языковые модели, такие как GPT-4, часто используются для оценки качества ответов различных языковых моделей. Однако проблемы, такие как недостаточная прозрачность, управляемость и доступность, сильно мотивируют разработку открытых языковых моделей, специализированных на оценке. С другой стороны, существующие открытые оценочные языковые модели обнаруживают серьезные недостатки: 1) они выдают оценки, значительно отличающиеся от оценок, присвоенных людьми, и 2) им не хватает гибкости для выполнения как прямой оценки, так и попарного ранжирования, двух наиболее распространенных форм оценки. Кроме того, они не обладают способностью оценивать на основе пользовательских критериев оценки, фокусируясь вместо этого на общих характеристиках, таких как полезность и безопасность. Для решения этих проблем мы представляем Prometheus 2, более мощную оценочную языковую модель, чем ее предшественник, которая тесно соответствует суждениям людей и GPT-4. Более того, она способна обрабатывать как прямую оценку, так и формат попарного ранжирования, сгруппированный с пользовательскими критериями оценки. На четырех бенчмарках прямой оценки и четырех бенчмарках попарного ранжирования Prometheus 2 показывает наивысшую корреляцию и согласованность с людьми и проприетарными судьями языковых моделей среди всех протестированных открытых оценочных языковых моделей. Наши модели, код и данные доступны публично по адресу https://github.com/prometheus-eval/prometheus-eval.