BERT как судья: надежная альтернатива лексическим методам для эффективной оценки языковых моделей с использованием эталонов

Аннотация

Точная оценка является центральным элементом экосистемы больших языковых моделей (LLM), направляя выбор моделей и их последующее внедрение в различных сценариях использования. Однако на практике оценка генеративных результатов обычно опирается на жесткие лексические методы для извлечения и анализа ответов, что может смешивать истинную способность модели решать задачи с её соответствием предопределенным правилам форматирования. Хотя современные подходы LLM-as-a-Judge смягчают эту проблему, оценивая семантическую правильность вместо строгого структурного соответствия, они также вносят значительные вычислительные затраты, делая оценку дорогостоящей. В данной работе мы сначала систематически исследуем ограничения лексической оценки через крупномасштабное эмпирическое исследование, охватывающее 36 моделей и 15 прикладных задач, демонстрируя, что такие методы слабо коррелируют с человеческими оценками. Чтобы устранить это ограничение, мы представляем BERT-as-a-Judge — подход на основе энкодера для оценки правильности ответов в референсных генеративных сценариях, устойчивый к вариациям формулировок вывода и требующий лишь облегченного обучения на синтетически размеченных тройках «вопрос-кандидат-референс». Мы показываем, что он стабильно превосходит лексический базовый метод, соответствуя производительности гораздо более крупных моделей-судей LLM, предлагая убедительный компромисс между ними и обеспечивая надежную, масштабируемую оценку. Наконец, с помощью обширного экспериментального анализа мы предоставляем детальное понимание производительности BERT-as-a-Judge для практического руководства специалистам и публикуем все материалы проекта для стимулирования его последующего внедрения.

English

Accurate evaluation is central to the large language model (LLM) ecosystem, guiding model selection and downstream adoption across diverse use cases. In practice, however, evaluating generative outputs typically relies on rigid lexical methods to extract and assess answers, which can conflate a model's true problem-solving ability with its compliance with predefined formatting guidelines. While recent LLM-as-a-Judge approaches mitigate this issue by assessing semantic correctness rather than strict structural conformity, they also introduce substantial computational overhead, making evaluation costly. In this work, we first systematically investigate the limitations of lexical evaluation through a large-scale empirical study spanning 36 models and 15 downstream tasks, demonstrating that such methods correlate poorly with human judgments. To address this limitation, we introduce BERT-as-a-Judge, an encoder-driven approach for assessing answer correctness in reference-based generative settings, robust to variations in output phrasing, and requiring only lightweight training on synthetically annotated question-candidate-reference triplets. We show that it consistently outperforms the lexical baseline while matching the performance of much larger LLM judges, providing a compelling tradeoff between the two and enabling reliable, scalable evaluation. Finally, through extensive experimentation, we provide detailed insights into BERT-as-a-Judge's performance to offer practical guidance for practitioners, and release all project artifacts to foster downstream adoption.

BERT как судья: надежная альтернатива лексическим методам для эффективной оценки языковых моделей с использованием эталонов

BERT-as-a-Judge: A Robust Alternative to Lexical Methods for Efficient Reference-Based LLM Evaluation

Аннотация

Support